Deep Learning là gì?

Bốn năm qua, thế giới đã và đang được chứng kiến những bước tiến khổng lồ về chất lượng cùng “độ thần thánh” của các sản phẩm công nghệ chúng ta vẫn sử dụng hàng ngày. Bạn đã bao giờ đặt ra câu hỏi về những tiện ích đó chưa? 

Đầu tiên phải kể đến công nghệ nhận diện giọng nói được nâng cấp rất nhiều so với trước đây. Nhờ có nó mà người dùng hiện nay có thể sử dụng khẩu lệnh để tương tác nhiều hơn với các thiết bị thông minh.

Những trợ lý ảo giọng nói như Alexa của Amazon, Siri của Apple, Cortana của Microsoft cùng các hệ thống nhận diện giọng nói có mặt trên hầu như mọi sản phẩm của Google đang đồng loạt nở rộ trên nhiều nền tảng, giúp người dùng thực hiện nhiều tác vụ khác nhau. Ở phía bên kia địa cầu, gã khổng lồ tìm kiếm Baidu cũng tỏ ra không hề kém cạnh với thống kê cho thấy người dùng các sản phẩm của công ty đã sử dụng nhận diện giọng nói nhiều gấp ba lần chỉ trong vòng 18 tháng qua.

Ngoài nhận diện giọng nói, dịch tự động và các công nghệ xử lý ngôn ngữ tự nhiên khác cũng đang ngày càng ưu việt hơn với những ông lớn như Google, Microsoft, Facebook, Baidu,… liên tục tung ra những tính năng độc đáo. Google Translate hiện nay có khả năng xử lý câu văn nói từ một sang 32 ngôn ngữ khác, dịch văn viết qua lại giữa 103 ngôn ngữ, thậm chí có thể dịch (tức thời) real-time ngay khi bạn lia ống kính điện thoại qua một tấm biển quảng cáo tiếng nước ngoài, như hình ảnh dưới đây.

Deep Learning: công nghệ đang giúp cả thế giới phát triển với tốc độ chưa từng thấy

Tính năng dịch real-time của Google Translate

Và rồi chúng ta lại có công nghệ nhận diện hình ảnh – tính năng đã có mặt rộng rãi trên các sản phẩm của 4 gã khổng lồ nêu trên. Bạn có thể tìm kiếm và sắp xếp những bức ảnh của mình mà không cần phải gắn thẻ (tag) chúng, mà chỉ dựa cần trên những gì hiện diện trong hình, từ cụ thể như một chú chó, cảnh tuyết rơi cho đến trừu tượng như những cái ôm. Nhiều sản phẩm trong số này thậm chí còn có thể đọc mô tả lại các yếu tố trên bức ảnh cho người dùng khiếm thị.

Deep Learning: công nghệ đang giúp cả thế giới phát triển với tốc độ chưa từng thấy

Mỗi khi bạn yêu cầu sắp xếp một album ảnh chó từ kho ảnh của mình, ứng dụng lưu trữ ảnh phải xác định được mọi loại chó, từ giống Chihuahua cho đến giống chó chăn cừu Đức, trên bất cứ phông cảnh nào, đồng thời loại bỏ được những bức hình tương tự có sói hay mèo. Công nghệ này cũng không chỉ dừng lại ở chuyện sắp xếp ảnh hay gợi ý tag mặt bạn bè trên Facebook, mà còn lan sang cả các lĩnh vực như y tế, robot, drone và xe tự lái.

Trong khi nhiều startup về y sinh tung ra những sản phẩm điện toán có khả năng đọc X-quang, MRI và phim chụp CT nhanh chóng và xác định bệnh chuẩn xác hơn cả bác sỹ trị liệu, các công ty công nghệ lớn như Uber, Google, Baidu lại đang định nghĩa lại cách chúng ta di chuyển qua những chiếc xe không người lái vẫn đang ngày ngày lăn bánh thử nghiệm trên các cung đường Âu Mỹ. Những phần mềm, cỗ máy phi thường này đã làm được điều đó như thế nào?

Sự bùng nổ của Deep Learning

Điều mà nhiều người không nhận ra là tất cả các công nghệ này, về mặt bản chất đều xuất phát từ cùng một nguồn gốc. Chúng được phát triển từ “deep learning”, một nhánh đặc biệt trong trí tuệ nhân tạo (AI). Nhiều nhà khoa học vẫn thích gọi nó theo tên nguyên gốc là deep neural network (mạng neuron sâu).

Trên thực tế, chẳng kỹ sư nào có thể lập trình cho máy tính thực hiện được những tính năng đề cập ở trên. Thay vào đó, họ tạo ra một thuật toán giúp máy tính có khả năng tự học rồi cho nó tiếp xúc với hàng terabyte các dữ liệu liên quan – chẳng hạn như vài trăm ngàn bức ảnh các loại chó, hay những băng ghi giọng nói kéo dài hàng năm trời.

Sự tiếp xúc liên tục này sẽ dần dần “huấn luyện” máy tính và khiến nó tự nhận diện được những hình ảnh, giọng nói được yêu cầu. Cũng giống như cách một đứa trẻ học hỏi về thế giới xung quanh, sau một thời gian dài được xem những hình ảnh mặc định là chó hay nghe cách người ta phát âm từ gì đó, máy tính sẽ “nhìn” được đâu là chó và “nghe” được người ta đang nói gì.

Hình dưới đây mô tả cách các mạng Neuron hoạt động như thế nào

Tìm hiểu về công nghệ đang giúp cả thế giới phát triển với tốc độ chưa từng thấy trong lịch sử loài người - Ảnh 6.

Mạng neuron sâu thực chất không phải một khái niệm mới, mà đã xuất hiện từ những năm 1950. Rất nhiều đột phá về các thuật toán trong đó diễn ra vào hai thập niên 1980 và 1990.

Lý do khiến chúng mãi đến giờ mới lại nổi lên, chính là vì các nhà khoa học cuối cùng cũng đã có thể tận dụng tất cả sức mạnh điện toán kết hợp với lượng dữ liệu khổng lồ các hình ảnh, video, âm thanh và file text trên Internet – những yếu tố quyết định giúp mạng neuron có thể hoạt động hiệu quả.

Frank Chen, đối tác điều phối của quỹ đầu tư công nghệ danh tiếng Andreesen Horowitz thậm chí còn so sánh những yếu tố trên với cuộc bùng nổ kỷ Cambria trong lĩnh vực deep learning.

Những bước tiến về phần cứng đã mở màn cho cơn địa chấn khổng lồ về deep learning. Sức mạnh điện toán leo thang vượt bậc trên các thiết bị không chỉ xuất phát từ định luật Moore, mà còn đến từ sự xuất hiện của vi xử lý đồ họa (GPU) của NVIDIA – thế hệ chip đầu tiên có khả năng mang lại những trải nghiệm thị giác tuyệt vời cho người dùng.

Ngày nay, ngoài việc cung cấp những trải nghiệm game 3D ấn tượng, GPU còn được sử dụng rộng rãi để tăng tốc độ tính toán trong các lĩnh vực như hình ảnh y khoa, điện từ, mô hình tài chính, nghiên cứu khoa học hiện đại, nhận diện hình ảnh,… Khi vận hành các thuật toán deep learning, so với việc chỉ sử dụng CPU truyền thống, GPU giúp máy tính hoạt động mượt mà hơn từ 20-50%.

Deep Learning: công nghệ đang giúp cả thế giới phát triển với tốc độ chưa từng thấy

Yếu tố thứ hai – lượng dữ liệu khổng lồ từ kho ảnh, video, âm thanh,… đồ sộ từ Internet và các thiết bị IoT hiện nay – đã nhen nhóm kể từ khi Internet mới ra đời, nhưng chỉ thực sự đạt độ chín trong 1-2 thập kỷ vừa qua – khi mà số cư dân mạng và tốc độ phủ sóng smartphone tăng nhanh đến chóng mặt.

Hai chất xúc tác nêu trên đã châm ngòi cho cuộc cách mạng mới về deep learning: Theo số liệu của CB Insights, các startup ứng dụng công nghệ AI được rót vốn quý vừa qua đã ở mức cao kỷ lục trong lịch sử, với con số tổng cộng lên đến hơn 1 tỷ USD. Chỉ tính riêng trong quý II năm 2016, những startup này đã tổ chức 121 vòng gọi vốn, một cú nhảy vọt so với mức 21 vòng cùng kỳ năm 2011.

➡️  Chuẩn bị việc làm trong kỉ nguyên trí thông minh nhân tạo

Năm 2012, Google mới chỉ tiến hành 2 dự án deep learning, nhưng hiện nay con số này đã lên tới hơn 1000, trên hầu hết các sản phẩm như Tìm kiếm, Android, Gmail, Translate, Youtube và xe tự lái.

Năm 2011, siêu máy tính Watson của IBM mới chỉ sử dụng AI để đánh bại những người chơi giỏi nhất trong gameshow Jeopardy! nhưng nay cũng đã được tích hợp thêm deep learning vào hơn 30 nhóm dịch vụ mà hệ thống này cung cấp.

Giới đầu tư, những người chỉ cách đây 5 năm thôi, thậm chí còn chẳng biết deep learning là gì, cũng bắt đầu phải dè chừng những startup ứng dụng deep learning vào công nghệ của họ. Giáo sư Andrew Ng., giám đốc trung tâm nghiên cứu của Baidu thì cho rằng “AI và deep learning chính là một thứ điện năng mới có khả năng cách mạng hàng loạt ngành công nghiệp tương tự như cách mà các mạng lưới điện đã làm hơn 100 năm về trước.”

Deep Learning có quan hệ thế nào với AI?

Cho tiện hình dung, hãy nhìn vào lược đồ dưới đây để thấy rõ mối quan hệ giữa AI, machine learning và deep learning.

Deep Learning: công nghệ đang giúp cả thế giới phát triển với tốc độ chưa từng thấy

Hãy tưởng tượng những gì deep learning có thể làm dưới dạng ghép nối đầu vào (input) với đầu ra (output). Bạn có thể đưa vào hệ thống một đoạn file âm thanh và có được một file phụ đề ghi lại nội dung trong đó ở đầu ra.

Trong một trường hợp khác, bạn có thể đưa vào hệ thống thật nhiều email, rồi yêu cầu đầu ra phân loại xem đâu là email spam. Hoặc bạn cũng có thể đưa vào hệ thống các hồ sơ xin vay tín dụng, rồi yêu cầu bản phân tích về khả năng hoàn trả của đối tượng ở đầu ra.

Tất cả những gì bạn cần làm là đưa vào hệ thống deep learning một lượng lớn dữ liệu và “lấy” những thứ mình cần ở đầu ra. Theo cách này, miễn là bạn có đủ dữ liệu để nạp vào hệ thống, tiềm năng ứng dụng và cách mạng hóa các ngành công nghiệp của deep learning là vô biên.

Deep Learning có thể làm những gì?

Nếu bạn thấy các tính năng như nhận diện giọng nói khi dùng voice search Google hay nhận diện hình ảnh bạn bè để gợi ý tag họ trên Facebook chưa có gì quá đột phá, thì hãy nhớ rằng đây mới đang là thời kỳ bình minh của kỷ nguyên deep learning và AI mà thôi. Deep learning còn rất nhiều tiềm năng to lớn mà trong khuôn khổ bài viết, chúng ta chỉ có thể điểm qua một số ví dụ nổi bật dưới đây.

Đôi mắt cho người mù

Deep learning trong tương lai chắc chắn sẽ không dừng lại ở việc nhận diện được các hình ảnh trên máy thông thường. Những chiếc máy tính sẽ sớm có thể nhận biết từng sự vật có mặt trong khung cảnh và mô tả lại chúng.

Deep Learning: công nghệ đang giúp cả thế giới phát triển với tốc độ chưa từng thấy

Một khi máy tính có thể nhận diện được mọi thứ với mức độ chi tiết không kém gì con người thì chẳng có lý do gì nó không thể nghe/nhìn thay những người dùng khiếm thính/khiếm thị. Trên thực tế, Baidu đã phát triển Baidu Light, một thiết bị đeo có thể chụp ảnh mọi thứ xung quanh và trình bày caption mô tả chúng cho người dùng.

Thay đổi cách thiết kế các sản phẩm Robot và IoT

Các nhà nghiên cứu hiện nay đã có thể nâng cấp độ chính xác trong nhận diện giọng nói từ 89% lên 99%. 10% nghe có vẻ ít ỏi này thực chất sẽ thay đổi toàn bộ cuộc chơi.

Chưa cần kể đến một lượng lớn dân số mù chữ trên thế giới có thể tiếp cận sớm với các thiết bị thông minh như smartphone, khả năng nhận diện này rõ ràng đang mở đường cho những nền tảng giao thức qua giọng nói giữa con người với máy tính, cho phép chúng ta trò chuyện và ra khẩu lệnh cho những chiếc smartphone, xe hơi, các món đồ gia dụng thông minh hay thậm chí là cả chính ngôi nhà mà chúng ta sống mà không còn cần đến những chiếc màn hình cồng kềnh.

Xa hơn nữa, các robot giúp việc trong tương lai có thể hoàn toàn “nghe hiểu” con người và “nhìn” được vạn vật xung quanh để thực hiện các tác vụ ở mức chính xác cao.

Hệ thống gợi ý trên các nền tảng

Deep Learning: công nghệ đang giúp cả thế giới phát triển với tốc độ chưa từng thấy

Các nền tảng lớn hiện nay như Facebook, Amazon, Netflix, Youtube, Coursera,… đều có hệ thống gợi ý (recommend) rất mạnh, giúp gia tăng đáng kể độ tương tác của người dùng. Cụ thể, chúng dựa trên các dữ liệu người dùng phát sinh ra khi dùng để gợi ý thêm những sản phẩm họ sẽ thích (trên các nền tảng mua sắm), những thước phim họ sẽ muốn xem (trên Netflix, Youtube), các bài quảng cáo/được tài trợ phù hợp (trên Facebook) hay các khóa học người học quan tâm (trên các nền tảng học online như Coursera, edX,…).

“Oanh tạc” ngành tài chính

Deep Learning: công nghệ đang giúp cả thế giới phát triển với tốc độ chưa từng thấy

Tài chính là một trong những lĩnh vực chủ chốt sẽ chứng kiến nhiều tác động của AI và deep learning. Các công ty trong ngành hiện đã và đang sử dụng các thuật toán dự đoán các xu hướng trên thị trường chứng khoán, chuyển đổi dữ liệu an toàn hơn cho đến ngăn chặn kịp thời các hành vi lừa đảo qua giao dịch.

Trong tương lai, nhiều ngân hàng và các tập đoàn tài chính có thể sẽ đồng bộ chatbot vào dịch vụ của họ để cung cấp cho khách hàng những tư vấn cần thiết ở mọi nơi, mọi lúc. Bằng khả năng xử lý ngôn ngữ tự nhiên ưu việt, các chatbot tư vấn tài chính sẽ phân tích để xác định thói quen tiêu dùng, đầu tư của họ để đưa ra những lời chỉ dẫn phù hợp và cá nhân hóa nhất có thể.

Cách mạng ngành y tế

Deep learning có thể tạo ra rất nhiều đột phá trong rất nhiều phân mảng y tế khác nhau. Có thể điểm qua:

Enlitic là một startup y tế đang sử dụng deep learning để phân tích, xác định bệnh lý từ các phim chụp CT và MRI. Trong một số thử nghiệm trước đây, tuy chưa chính thức được cấp phép hoạt động, nhưng các thuật toán học sâu của Enlitic đã thể hiện tốt hơn cả 4 bác sỹ X-quang tham gia khi xác định được chính xác các khối u lành tính và ác tính qua ảnh phim.

Trong khi đó, startup Merck và Atomwise lại đang ứng dụng deep learning vào việc đẩy nhanh tốc độ nghiên cứu các loại thuốc điều trị hiện nay. Thay vì phải thử nghiệm từng loại chất như trước đây, các nhà khoa học có thể sử dụng mạng thần kinh nhân tạo kiểm tra hình ảnh 3D của hàng ngàn phân tử chất có tiềm năng được đưa vào thành phần điều chế thuốc và dự đoán mức độ phù hợp trong việc khống chế mầm bệnh của chúng.

Một tiềm năng khác của deep learning trong lĩnh vực này là phát triển robot phẫu thuật với độ chính xác cao và có thể nhận khẩu lệnh thời gian thực (real-time) từ bác sỹ điều khiển.

➡️  Những công bố quan trọng tại hội nghị Qualcomm 4G/5G Summit – Hong Kong

Deep Learning: công nghệ đang giúp cả thế giới phát triển với tốc độ chưa từng thấy

Tuy nhiên, trong khi các ứng dụng trên mới chỉ tập trung vào nâng cấp những gì con người đang làm thì startup non trẻ Freenome lại đang nghiên cứu những thứ con người chưa làm được: xác định ung thư qua mẫu máu của người bệnh. Với sức mạnh của deep learning, Freenome có thể yêu cầu máy tính tìm ra những điểm tương đồng giữa các DNA tự do trong mạch máu (cell-free DNA) và các tế bào ung thư. Công ty cho biết họ đã chứng kiến những dấu hiệu khả quan đầu tiên mà các nhà nghiên cứu ung thư hiện nay vẫn chưa nhìn ra.

Lý giải điều này, Vijay Pande, lãnh đạo mảng đầu tư công nghệ sinh học của Andreesen Horowitz, cho biết nếu như một bác sỹ X-quang có thể xem được hàng ngàn tấm phim chụp trong suốt sự nghiệp của mình, thì một chiếc máy tính có thể xem được hàng triệu tấm như vậy trong một thời gian ngắn.

Chúng vượt trội hơn đơn giản là vì được tiếp xúc với lượng dữ liệu lớn đến mức con người không thể “tiêu hóa” nổi. Kết quả cuối cùng là ngoài chất lượng tăng lên và giá thành giảm xuống, các dịch vụ y tế trong tương lai còn trở nên minh bạch và dễ tiếp cận hơn rất nhiều.

AI và Deep Learning có thực sự đáng sợ?

Trước những đột phá hàng loạt trong lĩnh vực deep learning nói riêng và AI nói chung, vấn đề gây tranh cãi muôn thuở vẫn là liệu máy tính và robot có khi nào sẽ xâm chiếm và kiểm soát loài người?

Dẫn đầu luồng quan điểm lạc quan về tương lai AI là hàng loạt nhân vật đầu ngành đến từ các tổ chức lớn như IBM, Google, ĐH Stanford, Baidu,… Theo Guru Banavar, giám đốc nghiên cứu của IBM thì về lâu dài, AI chủ yếu vẫn sẽ cùng con người giải quyết những vấn đề nhức nhối như dịch bệnh, đói nghèo… qua các đột phá về y sinh, giáo dục và ứng dụng trong nông nghiệp, tài chính, kinh doanh… Chúng ta cũng không cần phải quá lo lắng về khả năng xâm chiếm của AI vì có thông minh đến đâu thì các máy tính cũng sẽ không có tri giác như con người.

Geoffrey Hinton, một trong những nhà khoa học tiên phong trong lĩnh vực này cho biết: “Ngay cả những mạng neuron lớn nhất hiện nay cũng vẫn nhỏ hơn não người hàng trăm lần.”

Deep Learning: công nghệ đang giúp cả thế giới phát triển với tốc độ chưa từng thấy

Về cơ bản, những cỗ máy AI hơn con người ở khả năng thu nạp và khai phá một lượng lớn dữ liệu cũng như ghi nhận được các xu hướng và các kiểu mẫu (pattern) đặc trưng trong thời gian ngắn, chứ không hề có tư duy độc lập như con người. Điều này có nghĩa là chúng không thể tự đặt câu hỏi về những gì chúng làm hay hiểu được tại sao chúng lại làm những việc đó.

Giáo sư Andrew Ng. của Baidu cũng có cùng nhận định khi cho rằng: “Có một sự khác biệt rất lớn giữa sự thông minh và cảm quan tri giác. Các phần mềm có thể trở nên thông minh hơn, nhưng sau cùng thì chúng vẫn không hề có tri giác.” Hơn thế nữa, như bất cứ cỗ máy nào, các robot cũng sẽ có lúc hết sạch năng lượng chứ không thể hoạt động mãi mãi. Chủ tịch điều hành Eric Schmidt của Google thậm chí còn phát biểu điều này một cách hài hước rằng nếu một ngày robot có nổi dậy thì “chẳng lẽ con người không nhận ra mà tắt chúng đi sao?”

Trong khi đó, những người không trực tiếp nghiên cứu trong ngành lại mang góc nhìn bất an hơn về công nghệ này. Elon Musk và nhà vật lý Stephen Hawking đều từng chia sẻ về lo ngại con người có thể tạo ra những cỗ máy AI khủng khiếp đến mức không thể kiểm soát nổi.

Tác giả người Mỹ James Barrat cũng chỉ ra trong cuốn sách nổi tiếng Our Final Invention của ông rằng AI, cũng như công nghệ phân hạch hạt nhân, có thể trở thành một con dao hai lưỡi khi bị sử dụng sai hướng. Ở mức độ cao cấp, AI thậm chí có thể nguy hiểm hơn cả hạt nhân vì chúng đã và đang được đưa vào các vũ khí quân sự như drone tự lái và robot chiến đấu.

Tại biên giới Hàn Quốc, người ta hiện đang sử dụng SGR-1, một robot canh gác với các cảm biến nhiệt và chuyển động có thể nhận diện mục tiêu tình nghi từ khoảng cách hơn 2 dặm. Hiện tại, SGR-1 vẫn phải chờ hiệu lệnh từ con người mới bắt đầu kích hoạt ngắm bắn, nhưng vấn đề ở đây là điều gì sẽ xảy ra nếu các robot như vậy có thể tự động bắn mà không cần sự thiệp của con người?

Deep Learning: công nghệ đang giúp cả thế giới phát triển với tốc độ chưa từng thấy

Theo Noel Sharley, nhà hoạt động dẫn đầu chiến dịch Stop Killer Robots thì các lãnh đạo quân đội sẽ ngày càng gửi nhiều robot ra tiền tuyến để giảm thiểu tổn thất về binh lính và đây mới chính là mối nguy thực sự. Hầu hết các quốc gia, bao gồm cả Nga, Trung Quốc và Hàn Quốc, đều đang phát triển thứ công nghệ có khả năng phá vỡ an ninh toàn cầu này. “Tương lai sẽ ra sao nếu chúng ta cứ liên tục xây dựng những con robot chiến đấu và hủy diệt lẫn nhau?”, ông đặt câu hỏi.

Cuộc tranh luận gay gắt giữa hai quan điểm trên có lẽ sẽ còn rất lâu nữa mới đi đến hồi kết, nhưng dù thế nào thì ở thời điểm hiện tại, chúng ta cũng chỉ có thể căn cứ vào những gì đã biết để nhận định về lo ngại này. Những mối hoài nghi không phải là không có cơ sở và những người lạc quan về AI cũng không phải là hoàn toàn phớt lờ những phương án phòng trừ viễn cảnh đen tối đó.

Deep Learning: công nghệ đang giúp cả thế giới phát triển với tốc độ chưa từng thấy

Tiêu biểu trong số này là những dự án như OpenAI, startup phi lợi nhuận do Elon Musk và Sam Altman, chủ tịch vườn ươm khởi nghiệp Y Combinator, sáng lập với sứ mệnh nghiên cứu và cung cấp mã nguồn AI cho tất cả mọi người tiếp cận để “AI không rơi vào tay một nhóm độc quyền thiểu số nào”.

Thời gian gần đây, liên minh phát triển AI do Google, Facebook, Microsoft, IBM và Amazon đi đầu cũng đã chính thức được thành lập với mục tiêu cùng nhau hỗ trợ việc nghiên cứu các giải pháp về đạo đức, tính minh bạch và bảo mật cá nhân trong quá trình ứng dụng công nghệ này. Chúng ta cũng có quyền hy vọng vào những hiệp ước AI mà các nước trên thế giới có thể chung tay thiết lập trong một tương lai không xa.

Lo sợ về AI không có gì là vô lý, nhưng nếu nhìn nhận một cách công bằng thì hầu như chẳng công nghệ nào là không có hai mặt của nó. Việc một công nghệ trở nên ra sao, xét cho cùng, vẫn chủ yếu phụ thuộc vào cách con người kiểm soát cũng như sử dụng nó. Và AI hay deep learning – nguồn điện mới của nhân loại – chắc chắn cũng không phải là một ngoại lệ.

Deep Learning: công nghệ đang giúp cả thế giới phát triển với tốc độ chưa từng thấy

Học máy là gì?

Định nghĩa

Với trí tuệ nhân tạo cổ điển, khi mà muốn máy tính hoàn thành một nhiệm vụ thì lập trình viên phải chỉ rõ trong code (mã nguồn) cách thực hiện nhiệm vụ đó như thế nào. Trong khi đó ML, nói một cách đơn giản là tập hợp của những phương pháp giúp cho máy tính có thể học được cách thực hiện những nhiệm vụ đó mà không cần sự chỉ dẫn trực tiếp của con người (Arthur Samuel, 1959).

Những bài toán được giải quyết bởi ML thường là

Những bài toán có quy mô lớn như việc xử lí dữ liệu web, dữ liệu đa phương tiện (multimedia), dữ liệu từ cảm biến (sensors), …
Những bài toán quá phức tạp mà chúng ta không biết lời giải dạng hiện (closed form solution) hoặc không thể lập trình bằng tay được như thị giác máy tính (Computer Vision, CV, giúp cho máy tính có khả năng nhận biết thế giới qua hình ảnh tương tự như thị giác con người), xử lí ngôn ngữ tự nhiên (Natural Language Processing, NLP, giúp cho máy tính có khả năng hiểu được ngôn ngữ của con người), điều khiển robot, xe cộ trong môi trường tự nhiên, …
Một số ví dụ cụ thể về bài toán phù hợp với ML như:

Tìm kiếm trên web: hàng ngày chúng ta cần phải tìm rất nhiều thông tin trên web, việc dùng người duyệt qua hàng tỉ trang web để tìm thứ phù hợp là không khả thi. Các thuật toán ML có khả năng tính toán độ phù hợp giữa câu hỏi của người dùng (query) và nội dung của các trang web và sắp xếp chúng theo thứ tự để trả về cho người dùng.
Lọc spam mail: các hệ thống lọc spam cần phát hiện nhưng email có nội dung khác thường và lừa đảo và ngăn chúng tới được inbox của người dùng. Khác biệt với bài toán trên, chúng ta cần phát hiện ra sự bất thường, đo đạc sự khác nhau giữa những email thông thường và spam.
Nhận dạng ảnh: khác với văn bản, khi mà một ý tưởng thường chỉ có một số nhỏ cách diễn đạt và các cách diễn đạt thường sử dụng những từ ngữ giống nhau hoặc đồng nghĩa, ảnh chụp của cùng một vật thể ở mỗi góc độ khác nhau, điều kiện môi trường khác nhau thì có thể rất khác nhau nếu so sánh ở từng điểm ảnh. Các hệ thống xử lí ảnh cần phải nhận ra những đặc trưng bất biến (invariants) trong những bức ảnh để có thể đạt được độ chính xác cao
Định nghĩa: Bài toán ML một chương trình A được gọi là học từ kinh nghiệm E(xperience) để thực hiện một nhiệm vụ T(ask) nếu như hiệu quả thực hiện P(erformance) của nó tăng lên sau khi được bổ sung E.

Huấn luyện và kiểm tra

Quá trình xây dựng một hệ thống ML thường bao gồm hai giai đoạn: huấn luyện và kiểm tra.

Huấn luyện Quá trình dạy một hệ thống ML học gọi là huấn luyện (training). Huấn luyện thường là việc đưa cho hệ thống ML những ví dụ mẫu (training example) và dựa trên những ví dụ đó, hệ thống phải hiệu chỉnh các tham số (parameters) của mình để có thể cho ra được kết quả đúng ở những ví dụ sau. Quá trình hiệu chỉnh tham số thường sử dụng các thuật toán tối ưu (optimization ví dụ convex optimization, linear optimization, …) và quy hoạch (programming, ví dụ dynamic programming, approximate dynamic programming, …) và nhiều phương pháp toán học, thống kê khác.

Kiểm tra Sau khi hoàn thành huấn luyện, hiệu năng (performance) của một hệ thống thường được ước lượng bằng hiệu năng của nó trên một tập dữ liệu kiểm tra (test set) khác với tập huấn luyện (training set). Quá trình này gọi là kiểm tra (testing) nhằm ước lượng hiệu quả thực sự của hệ thống trong môi trường làm việc. Test set bắt buộc phải khác với training set vì hệ thống được huấn luyện trên training set nên nó sẽ dần thích nghi với những đặc điểm của training set và đạt được hiệu năng cao trên tập này, không phản ánh hiệu năng thực tế của hệ thống trong môi trường làm việc.

Sự tương đồng Quá trình training và testing giống như quá trình dạy học và thi cử trong đời sống. Trong quá trình dạy, giáo viên đưa cho sinh viên rất nhiều bài tập và qua quá trình giải các bài tập đó, sinh viên dần hiểu được bản chất của vấn đề. Tương tự như vậy, chúng ta đưa cho hệ thống ML rất nhiều ví dụ và qua các ví dụ đó, hệ thống dần dần xây dựng hiểu biết về bài toán. Thi cử là để đánh giá hiểu biết của sinh viên, nếu giáo viên đưa cho sinh viên những bài toán đã dùng trong quá trình giảng dạy, sinh viên sẽ dễ dàng đạt được điểm cao hơn hiểu biết thực sự của họ về vấn đề. Do đó, bài toán trong đề thi cần phải khác với những bài toán sử dụng trong quá trình dạy học. Năng lực thực sự của sinh viên, giống như hiệu năng hệ thống ML, là những đại lượng ẩn (hidden variables), chúng ta ước lượng nó thông qua thi cử. Đến đây thì có lẽ mọi người đều hiểu rõ vì sao có tên gọi Machine learning. Tuy nhiên, khi dịch sang tiếng Việt là học máy thì nghe không được xuôi tai cho lắm, :v.

Phân loại hệ thống ML

Các hệ thống ML được phân loại theo cách thức mà người ta huấn luyện nó. Một số nhánh chính của học máy bao gồm:

Học có giám sát (Supervised learning, SL)

Phương pháp này được gọi là có giám sát vì trong quá trình huấn luyện, hệ thống ML cần phải biết được câu trả lời chính xác cho mỗi training example. Với mỗi example, hệ thống đo đạc sự khác nhau giữa câu trả lời đúng và câu trả lời mà nó đưa ra. Mục tiêu của training là làm giảm độ sai lệch giữa tập hợp câu trả lời đúng và tập hợp câu trả lời của hệ thống. Mỗi mẫu dùng để huấn luyện bao gồm 2 phần: các đặc trưng để mô tả vật mẫu (features) và nhãn của mẫu (label).

Ví dụ một hệ thống SL dùng để phân loại trái cây thì mỗi training example sẽ có thể có dạng như sau: (màu sắc, vị, cân nặng : tên loại quả), (đỏ, ngọt, 130gram : táo), (vàng, chua, 200gram : cam), … Độ sai khác cho mỗi mẫu là 1 nếu như hệ thống đưa ra câu trả lời sai, 0 nếu câu trả lời đúng. Độ sai khác được tính cho toàn bộ các mẫu trong training set. Huấn luyện nhằm giúp hệ thống đạt được độ sai khác thấp hơn so với lúc ban đầu.

SL thường có hiệu năng cao hơn các phương pháp khác nhưng quá trình huấn luyện tốn kém hơn nhiều do phải gán nhãn cho từng mẫu.

Học không giám sát (Unsupervised learning, UL)

Khác với SL, mục tiêu của UL là học ra những hàm mô tả những cấu trúc ẩn trong dữ liệu. UL nhằm giải quyết những bài toán mà lượng dữ liệu có nhãn là rất ít hoặc không có, hoặc do những đặc trưng của bài toán mà dữ liệu có gán nhãn là không cần thiết.

Ví dụ chúng ta có một lượng lớn khách hàng với những sở thích khác nhau và muốn có một nhân viên hỗ trợ khách hàng cho mỗi nhóm sở thích. Ở đây chúng ta không cần quan tâm sở thích cụ thể của một người là gì mà chỉ muốn những khách hàng có cùng sở thích thì sẽ được hỗ trợ bởi cùng một nhân viên. Chúng ta sử dụng thuật toán phân cụm (clustering), ví dụ như k-means, để nhóm những khách hàng có cùng sở thích lại với nhau dựa theo một độ đo (measure) về sự giống/khác nhau về sở thích giữa 2 người.

Semi-supervised learning (học bán giám sát) là một phương pháp kết hợp giữa UL và SL để giải quyết những bài toán có ít dữ liệu có gán nhãn.

Học tăng cường (Reinforcement learning, RL)

Khác với 2 phương pháp trên, RL không học từ những tập dữ liệu có sẵn mà nó liên quan tới việc điều khiển một/nhiều tác tử (agent) đưa ra những hành động (actions) trong một môi trường (environment) một cách hợp lí để cực đại hóa giá trị phần thưởng tích lũy (cummulative reward).

Ví dụ chúng ta có một robot (agent) với khả năng quan sát hạn hẹp, ở trong một môi trường với nhiều chướng cạm bẫy và phần thưởng. Mục tiêu của robot là tìm ra cách hoạt động thu được nhiều phần thưởng nhất và tránh được các cạm bẫy. Để đạt được điều đó, robot phải trải qua quá trình dò tìm, khảo sát môi trường xung quanh và dần xây dựng nên một mô hình về môi trường đó. Quá trình học này khác với SL, UL vì dữ liệu về môi trường là không sẵn có mà phải được khám phá dần dần qua nhiều lần thử nghiệm.

SL và UL là hai phương pháp phổ biến nhất trong ML nhưng RL cũng là một phương pháp cực kì triển vọng và đang phát triển mạnh mẽ trong thời gian gần đây khi nó được kết hợp với SL và UL.