Khai phá dữ liệu – Tổng quan, ứng dụng và các nền tảng thông dụng để khai phá dữ liệu 

Sự bùng nổ của Internet và các hệ thống thông tin đã dẫn tới sản sinh ra một lượng lớn dữ liệu. Với lượng dữ liệu khổng lồ như vậy không thể khai thác trực tiếp được mà phải dùng các kỹ thuật để chiết xuất tạo thành các thông tin có ích. Quá trình đó là khai phá dữ liệu.

Khai phá dữ liệu hiện diện trong tất cả lĩnh vực ứng dụng công nghệ thông tin hiện nay. Để có thông tin tổng quan về khai phá dữ liệu, bài viết này sẽ trình bày những nét cơ bản về khai phá dữ liệu, một số điển hình về ứng dụng khai phá dữ liệu trong lĩnh vực cụ thể là chăm sóc sức khỏe và bán lẻ; các thuật toán cơ bản về khai phá dữ liệu cùng một số nền tảng công nghệ cơ bản.

Khai phá dữ liệu là gì

Khai phá dữ liệu hay còn gọi là khám phá tri thức trong cơ sở dữ liệu, là việc khai thác các thông tin tiềm ẩn, không xác định trước và có hữu ích từ dữ liệu. Khai phá dữ liệu là việc sử dụng các kỹ thuật phân tích dữ liệu tự động để khám phá các mối quan hệ chưa được phát hiện trước đó giữa các mục, đối tượng dữ liệu. Để thực hiện khai phá dữ liệu đòi hỏi phải sử dụng nhiều phương pháp tiếp cận kỹ thuật khác nhau, chẳng hạn như phân nhóm, tổng hợp dữ liệu, phân loại, xác minh mạng lưới phụ thuộc, phân tích các thay đổi và phát hiện các điểm bất thường. Khai phá dữ liệu thường bao gồm việc phân tích dữ liệu được lưu trong kho dữ liệu.

Khai phá dữ liệu là công nghệ kỹ thuật được tổng hợp từ nhiều nhánh công nghệ kỹ thuật khác nhau. Trong đó, các khía cạch công nghệ, kỹ thuật chính bao gồm công nghệ về cơ sở dữ liệu, kỹ thuật truy xuất thông tin, giải pháp thống kê, các thuật toán và học máy. Khai phá dữ liệu là sự quy tụ của các công nghệ kỹ thuật này để trích xuất thông tin từ dữ liệu.

Khái quát về quá trình phát triển của khai phá dữ liệu:

Khai phá dữ liệu bắt đầu được quan tâm và phát triển từ những năm 1960. Ban đầu, đó là quá trình xử lý các tệp dữ liệu. Tiếp theo đó, vào những năm từ 1970 tới 1980 đã chuyển sang xử lý trên các hệ quản trị cơ sở dữ liệu. Trong các cơ sở dữ liệu xử lý giao dịch trực tuyến OLTP (online transaction processing) các công cụ mô hình hóa dữ liệu và xử lý truy vấn được tích hợp hoạt động. Từ các hệ thống quản trị cơ sở dữ liệu, có ba nhánh phát triển chính. Nhánh 1: Hệ thống cơ sở dữ liệu nâng cao được phát triển từ giữa những năm 1980 tới hiện tại đã giới thiệu mô hình dữ liệu hướng ứng dụng.  Nhánh 2 là Kho dữ liệu và khai phá dữ liệu được phát triển từ giữa năm 1980 tới hiện tại. Nhánh 3 là Hệ thống cơ sở dữ liệu trên nền web được phát triển từ những năm 1990 tới hiện tại trong các ứng dụng khai phá Web và hệ thống cơ sở dữ liệu trên nền tảng công nghệ XML. Cả ba nhánh này hiện tại được kết hợp lại thành Hệ thống thông tin tích hợp thế hệ mới từ năm 2000.

Ứng dụng khai phá dữ liệu trong các lĩnh vực:

Khai phá dữ liệu được ứng dụng trong nhiều lĩnh vực của đời sống, là công nghệ căn bản trong triển khai các giải pháp chuyển đổi số, hỗ trợ ra quyết định. Có 7 lĩnh vực được ứng dụng khai phá dữ liệu nhiều nhất bao gồm:  kinh doanh; viễn thông; ngân hàng; thương mại điện tử và bán lẻ; tài chính; y tế và chăm sóc sức khỏe; an ninh, bảo mật mạng. Trong giới hạn bài này giới thiệu chi tiết việc ứng dụng hai lĩnh vực là chăm sóc sức khỏe và thương mại điện tử để có thông tin chi tiết hơn.

Ứng dụng khai thác dữ liệu trong lĩnh vực chăm sóc sức khỏe:

Ngành chăm sóc sức khỏe ngày nay tạo ra một lượng lớn dữ liệu phức tạp về bệnh nhân, tài nguyên bệnh viện, chẩn đoán bệnh, hồ sơ bệnh nhân điện tử và các loại thiết bị y tế khác nhau. Lượng dữ liệu lớn hơn là nguồn tài nguyên quan trọng cần được xử lý và phân tích để sản sinh ra kiến ​​thức hoặc khai thác thông tin cho phép hỗ trợ nghiệp vụ mang lại lợi ích tiết kiệm chi phí và ra quyết định. Một số lợi ích có thể kể đến là:

Nâng cao hiệu quả điều trị: Các ứng dụng khai thác dữ liệu có thể phát triển để đánh giá hiệu quả của các phương pháp điều trị y tế trong bệnh viện. Khai thác dữ liệu có thể đưa ra phân tích về quá trình hành động nào đó chứng tỏ hiệu quả bằng cách so sánh và đối chiếu các nguyên nhân, triệu chứng và các phương pháp điều trị khác nhau.

Quản lý chăm sóc sức khỏe: Các ứng dụng khai thác dữ liệu có thể được phát triển để tìm ra và theo dõi tốt hơn các trạng thái bệnh mãn tính và những bệnh nhân có nguy cơ cao, thiết kế các biện pháp can thiệp phù hợp và giảm thiểu số lần nhập viện và yêu cầu hỗ trợ quản lý chăm sóc sức khỏe.

Quản trị quan hệ khách hàng: Quản lý quan hệ khách hàng là một quy trình cốt lõi để duy trì sự tương tác giữa các tổ chức và khách hàng, hoạt động này có mặt ở nhiều ngành nghề như ngân hàng, bán lẻ nhưng quan trọng hơn trong quản lý chăm sóc sức khỏe. Tương tác của khách hàng có thực hiện thông qua trung tâm cuộc gọi chăm sóc bệnh nhân, tại các văn phòng bác sĩ, bộ phận thanh toán, cơ sở nội trú và cơ sở chăm sóc sức khỏe.

Xử lý lạm dụng quỹ bảo hiểm: Lạm dụng, trục lợi quỹ bảo hiểm thường diễn ra khi quản lý khám chữa bệnh bảo hiểm y tế dựa trên thẻ giấy. Các vụ việc nhận diện được như một người khám nhiều lần trong khoảng thời gian ngắn hoặc cùng một người khám tại nhiều bệnh viện tại cùng một thời điểm... Khai phá dữ liệu sẽ giúp giảm, hạn chế tình trạng này. Ví dụ cụ thể Bảo hiểm xã hội Việt Nam triển khai hệ thống giám định trên cơ sở khai phá dữ liệu khám chữa bệnh đã cải thiện rõ rệt tình trạng lạm dụng quỹ bảo hiểm y tế và giúp tiết kiệm ngân sách hàng trăm tỉ đồng mỗi năm.

Ứng dụng khai phá dữ liệu trong ngành bán lẻ trực tuyến

Ngành bán lẻ trong những năm qua đã có sự tăng trưởng vượt bậc. So với mua sắm truyền thống tại cửa hàng, mua sắm trực tuyến có một số đặc điểm riêng: quá trình mua sắm của khách hàng có thể theo dõi ngay lập tức, đơn hàng gắn liền với địa chỉ giao và thanh toán. Mỗi khách hàng có phương thức thanh toán cụ thể. Các thông tin này cho phép người bán hàng phân biệt các khách hàng khác nhau và tối ưu hóa, cá thể hóa sự phục vụ cho từng khách hàng. Để làm được điều này, các nền tảng bán hàng trực tuyến phải dựa trên trí tuệ nhân tạo và khai phá dữ liệu.

Khai phá dữ liệu bán lẻ có thể giúp xác định hành vi mua hàng của người dùng, tìm ra các xu hướng và xu hướng mua sắm của người dùng, nâng cao chất lượng dịch vụ người dùng, đạt được sự hài lòng và duy trì người dùng tốt hơn, tăng tỷ lệ tiêu thụ hàng hóa, thiết kế các chính sách vận chuyển và phân phối hàng hóa hiệu quả hơn, đồng thời giảm chi phí việc kinh doanh.

Một số ứng dụng về khai thác dữ liệu trong ngành bán lẻ:

Thiết kế và xây dựng kho hàng dựa trên lợi ích của việc khai thác dữ liệu – Hàng hóa phân phối bán lẻ có phạm vi rộng. Do đó dữ liệu bán hàng sẽ cung cấp các thông tin cụ thể về khách hàng, nhân viên xử lý, quá trình vận chuyển, phân phối. Dữ liệu này có thể được khai phá để cung cấp thông tin tổ chức các kho lưu trữ hàng tối ưu về mặt địa lý giúp việc lưu thông phân phối hiệu quả hơn.

Phân tích đa chiều về doanh số, khách hàng, sản phẩm, thời gian và khu vực - Thị trường bán lẻ cần dữ liệu kịp thời về yêu cầu của khách hàng, doanh số bán sản phẩm, xu hướng và thời trang cũng như chất lượng, chi phí, lợi nhuận và dịch vụ của hàng hóa. Điều cần thiết là phải cung cấp các công cụ phân tích và trực quan đa chiều động, chẳng hạn như việc xây dựng các khối dữ liệu phức tạp theo yêu cầu của phân tích dữ liệu.

Phân tích hiệu quả của các chiến dịch tiếp thị bán hàng: Thị trường bán lẻ thực hiện các chiến dịch tiếp thị bán hàng bằng cách sử dụng quảng cáo, phiếu giảm giá và một số hình thức giảm giá, thưởng để quảng bá sản phẩm và thu hút người dùng. Phân tích dữ liệu đánh giá hiệu quả của các chiến dịch bán hàng có thể hỗ trợ cải thiện lợi nhuận của doanh nghiệp.

Phân tích đa chiều có thể được sử dụng cho các mục tiêu này bằng cách so sánh số lượng bán hàng và nhiều giao dịch bao gồm các mặt hàng bán hàng trong thời gian bán hàng với các giao dịch bao gồm các mặt hàng giống nhau trước hoặc sau chiến dịch bán hàng. Phân tích liên kết có thể tiết lộ những mặt hàng nào có khả năng được mua cùng với các mặt hàng đang giảm giá, cụ thể là so với doanh số bán hàng trước hoặc sau chiến dịch.

Thuật toán chính trong khai phá dữ liệu

Trong khai phá dữ liệu, thuật toán đóng vai trò quan trọng để xử lý khối lượng khổng lồ thông tin từ đó tìm ra các thông tin có ích. Có rất nhiều thuật toán và việc ứng dụng là tổ hợp của nhiều thuật toán. Trong đó, học máy có thể coi là thuật toán cơ bản nhất. Học máy là quá trình rèn luyện cho máy tính có khả năng có trí thông minh nhân tạo trên cơ sở dữ liệu đầu vào mang tính lịch sử. Từ đó, máy tính sẽ đưa ra thông tin có ích đối với các tình huống trong tương lai.

Học máy có giám sát: Trong quá trình học có giám sát, một tập hợp các mẫu có nhãn được đưa cho máy và máy phải tìm ra mối quan hệ giữa các mẫu và nhãn. Mục tiêu trong các thuật toán này là giảm lỗi trong xử lý dữ liệu của tương lai. Một số ví dụ về thuật toán học có giám sát bao gồm Cây quyết định, Rừng ngẫu nhiên, Mạng thần kinh nhân tạo, Máy vectơ hỗ trợ và Mạng Bayes.

Học máy không giám sát: Các mẫu được sử dụng trong học tập không có giám sát và không được dán nhãn. Trong các thuật toán này, một hàm chi phí và một thước đo khoảng cách được định nghĩa; các thuật toán phải giảm giá trị của hàm chi phí theo thước đo khoảng cách. Dự đoán đầu vào trong tương lai, ra quyết định, phân cụm hoặc nhóm, giảm kích thước, v.v. Một số ví dụ về thuật toán học không giám sát bao gồm phân cụm K-mean, mô hình chuỗi Markov, thuật toán tối đa hóa kỳ vọng, phân cụm không gian dựa trên mật độ của các ứng dụng có nhiễu (DBSCAN) và thuật toán Apriori.

Học máy bán giám sát: Các mẫu được sử dụng trong phương pháp bán giám sát là sự kết hợp của các mẫu có nhãn và không dán nhãn. Cách tiếp cận này yêu cầu ít dữ liệu hơn các phương pháp khác, chẳng hạn như học có giám sát và học không giám sát, giúp giảm chi phí tài nguyên.

Học máy tăng cường: Trong trường hợp này, máy được mô tả như một tác nhân và xung quanh là môi trường. Thông tin không được cung cấp cho máy trong quá trình học tăng cường nhưng máy có thể tương tác với môi trường bằng một số hành động và nhận thông tin và phản hồi. Khi máy nhận được phản hồi, nó có thể học cách cải thiện bản thân để có thể nhận được nhiều phản hồi tốt hơn trong tương lai.

Một số nền tảng thông dụng phục vụ khai phá dữ liệu

Để khai phá dữ liệu, bên cạnh việc thực hiện các công cụ, hệ quản trị dữ liệu truyền thống thì trên thế giới có nhiều nền tảng công nghệ để hỗ trợ việc khai phá dữ liệu. Các nền tảng có thể là các công cụ chuyên biệt phục vụ cho các chuyên gia dữ liệu hoặc được sử dụng làm cơ sở để xây dựng các hệ thống thông tin quản lý tổng thể phù hợp với mỗi giải pháp cụ thể. Một số các nền tảng khai phá dữ liệu có thể kể đến bao gồm:

RapidMiner: Là một trong những công cụ phổ biến nhất để khai phá dữ liệu, RapidMiner được viết trên nền tảng Java nhưng không yêu cầu viết mã để vận hành; nó cung cấp các chức năng khai thác dữ liệu khác nhau như tiền xử lý dữ liệu, biểu diễn dữ liệu, lọc, phân cụm, v.v.

Weka: Weka là một phần mềm khai thác dữ liệu mã nguồn mở được phát triển tại Đại học Wichita. Giống như RapidMiner, Weka không cần lập trình mã nguồn và sử dụng giao diện GUI đơn giản. Weka có thể gọi trực tiếp các thuật toán học máy hoặc nhập chúng bằng mã Java. Nó cung cấp một loạt các công cụ như trực quan hóa, tiền xử lý, phân loại, phân cụm, v.v.

KNime: KNime là một bộ khai phá dữ liệu mạnh mẽ, chủ yếu được sử dụng cho tiền xử lý dữ liệu. Đó là, ETL (Trích xuất, Chuyển đổi, Nạp). Nó tích hợp nhiều thành phần khác nhau của khoa học máy tính và khai phá dữ liệu để cung cấp một nền tảng cho các hoạt động phù hợp.

Apache Mahout: Apache Mahout là một phần mở rộng của Nền tảng Big Data Hadoop. Các nhà phát triển tại Apache đã phát triển Mahout để giải quyết nhu cầu ngày càng tăng về khai phá dữ liệu và hoạt động phân tích trong Hadoop. Nó chứa các chức năng học máy khác nhau.

Oracle DataMining: Oracle DataMining là một công cụ để phân loại, phân tích và dự đoán dữ liệu. Nó cho phép người dùng thực hiện khai phá dữ liệu trên cơ sở dữ liệu SQL để trích xuất các bảng và biểu đồ theo các chiều nhất định.

TeraData: còn được gọi là Cơ sở dữ liệu TeraData cung cấp dịch vụ kho chứa các công cụ khai phá dữ liệu. Nó có thể lưu trữ dữ liệu dựa trên mức độ sử dụng của chúng, nghĩa là, nó lưu trữ dữ liệu ít được sử dụng trong phần ‘slow’ và cho phép truy cập nhanh vào dữ liệu được sử dụng thường xuyên.

Orange: Orange được biết đến bởi việc tích hợp các công cụ khai phá dữ liệu và học máy. Nó được viết bằng Python và cung cấp trực quan tương tác và thẩm mỹ cho người dùng.

Trên đây là một số gợi ý về công nghệ nền tảng khai phá dữ liệu để tham khảo phục vụ tiếp cận với các công nghệ xử lý dữ liệu lớn.

Như vậy, trong bài này chúng ta cùng thảo luận những nét cơ bản về khai phá dữ liệu bao gồm khái niệm và nguồn gốc, công nghệ liên quan, ứng dụng trong các lĩnh vực của đời sống, các thuật toán cơ bản cùng các nền tảng, công cụ hỗ trợ khai phá dữ liệu. Đây là những thông tin cần thiết cơ bản nhất để các chuyên gia chính phủ điện tử của các bộ, ngành, địa phương từng bước tiếp cận đến khai phá dữ liệu đặc biệt là việc khai thác, sử dụng hiệu quả nguồn dữ liệu trong cơ quan nhà nước hiện nay để góp phần xây dựng chính phủ điện tử, chuyển đổi số.

Khánh Nguyễn.

 

Tài liệu tham khảo:

http://www.researchinventy.com/papers/v6i5/M0605079082.pdf

https://core.ac.uk/download/pdf/55332486.pdf

https://insight.isb.edu.vn/data-mining-la-gi-cac-cong-cu-khai-pha-du-lieu/

https://link.springer.com/article/10.1007/s11042-020-09916-0

http://www.dataminingcasestudies.com/

https://openresearch.lsbu.ac.uk/item/87978

https://www.tutorialspoint.com/what-is-the-role-of-data-mining-in-the-retail-industry

https://www.intellspot.com/data-mining-applications/

459 Go top

Sự kiện nổi bật

Ý kiến về Trang thông tin điện tử Cục Chuyển đổi số quốc gia?
1. Đạt yêu cầu, 1180 phiếu (88 %)
2. Chưa đạt yêu cầu, 107 phiếu (8 %)
3. Cần thêm chủ đề, 57 phiếu (4 %)
Tổng số phiếu: 1344
THÔNG KÊ TRUY CẬP
  • Người trực tuyến Người trực tuyến
    • Khách Khách 88
    • Thành viên Thành viên 0
    • Tổng Tổng 88
    • Tổng lượt truy cập: Tổng lượt truy cập: 19355997