Chào mừng bạn đến với INDA!

Hotline: (HN) (+84) 986-882-818 | (HCM) (+84) 945-618-746

Dự đoán về sự gắn bó của nhân viên  với Oracle Analytics

Dự đoán về sự gắn bó của nhân viên  với Oracle Analytics

Từ hướng dẫn phân khúc khách hàng, bạn đã biết rằng Oracle Analytics cung cấp một số thuật toán Máy học (ML) để giải quyết các vấn đề về Học có giám sát và Học không được giám sát với yêu cầu thấp mã.

Dự đoán về Sự chú ý của Nhân viên là một trong những vấn đề Học tập có Giám sát như vậy. Đây là một trường hợp sử dụng phổ biến mà hầu hết các tổ chức cần phải giải quyết để giảm thiểu tỷ lệ tiêu hao. Bạn đào tạo một mô hình có tập dữ liệu được gắn nhãn, và Nhân viên được gắn nhãn Có hoặc Không đối với Ghi chú trong tập dữ liệu.

Trong hướng dẫn này, chúng tôi sẽ sử dụng Luồng dữ liệu trong Oracle Analytics để dự đoán Mức độ phân bổ của nhân viên . Chúng tôi sẽ thử các thuật toán khác nhau để dự đoán và đánh giá mô hình nào là tốt nhất cho việc giải quyết Đánh giá nhân viên:

Project up life out

Hầu hết các dự án khoa học dữ liệu tuân theo năm giai đoạn của Phát triển vòng đời dự án:

Định nghĩa vấn đề kinh doanh : giai đoạn này xác định các vấn đề kinh doanh cần giải quyết và xác định các yêu cầu kinh doanh dữ liệu:

  • Dữ liệu đến từ đâu?
  • Dữ liệu nào là cần thiết(thuộc tính)?
  • Dữ liệu được chuyển đổi như thế nào?  

Trích xuất dữ liệu : giai đoạn này xác định các quy trình để trích xuất dữ liệu.

Triển khai mô hình : giai đoạn này xác định các thuật toán và mô hình để giải quyết các vấn đề kinh doanh đã xác định dựa trên việc đào tạo một tập dữ liệu. Bạn phải chạy các thuật toán và mô hình khác nhau để tìm ra những thuật toán và mô hình nào trả lại kết quả chính xác nhất.

Xác minh mô hình: giai đoạn này áp dụng thuật toán và mô hình cho tập dữ liệu thử nghiệm của bạn.

Triển khai mô hình: sau khi xác minh mô hình, bạn cần triển khai mô hình và chạy nó trên tập dữ liệu thực.

Các giai đoạn nêu trên liên tục chạy trong quy trình vòng đời cho đến khi các vấn đề kinh doanh được giải quyết hoàn toàn.

Những gì cần phải được thực hiện?

  • Tải xuống và cài đặt phiên bản mới nhất của Oracle Analytics Desktop
  • Cung cấp cơ sở dữ liệu Kho dữ liệu tự trị.
  • Hoàn thành hướng dẫn Phân khúc khách hàng để làm quen với Luồng dữ liệu trong Oracle Analytics.

Tổng quan về nguồn dữ liệu

Tải xuống tập dữ liệu mẫu . Chúng tôi sẽ làm việc trên tập dữ liệu Đánh giá nhân viên. Mỗi bản ghi được 

đánh dấu  hoặc Không cho cột Sự cố gắng xác định xem một nhân viên có từ chức hay không.

Mở Oracle Analytics Desktop và nhập tập dữ liệu. Lưu bộ dữ liệu với Đánh giá nhân viên nhân sự. Bạn có thể thấy rằng giá trị Không có của Attrition là 84,92% và  của Attrition là 15,08%.

Triển khai mô hình

Trong bước này, bạn đang tạo Luồng dữ liệu và sử dụng các thuật toán Học máy dựng sẵn để đào tạo tập dữ liệu của mình. Bạn bắt đầu phát triển các thuật toán ML cho Phân tích dự đoán và đánh giá mô hình nào là mô hình tốt nhất:

  • Naïve Bayes
  • Neural Network
  • Support Vector Machine(SVM)

Lưu ý rằng bạn chỉ chọn 80% tập dữ liệu để huấn luyện và 20% tập dữ liệu để kiểm tra mô hình cho tất cả các thuật toán được sử dụng trong hướng dẫn này.

Naïve Bayes để đào tạo người mẫu

Tạo luồng dữ liệu mới và thêm tập dữ liệu Đánh giá nhân viên mà bạn đã nhập ở bước trước. Lưu luồng dữ liệu với tên DF_Eaffee_Attrition_Naive_Bayes .

Vấn đề kinh doanh là dự đoán Có hoặc Không cho Attrition. Nhấp vào biểu tượng Dấu cộng của tập dữ liệu đã thêm và chọn Bộ phân loại nhị phân đào tạo .

Chọn Tập lệnh mô hình hai phân loại đào tạo khi cửa sổ bật lên xuất hiện và chọn Phân loại Naïve Bayes để đào tạo mô hình.

Trong tham số Target , bạn chọn cột Attrition để dự đoán trong tập dữ liệu của mình. Bạn có thể giữ giá trị mặc định cho các tham số khác

Nhấp vào Lưu mô hình và nhập tên MD_Eaffee_Attrition_Naive_Bayes

Lưu luồng dữ liệu và nhấp vào biểu tượng Bắt đầu để chạy nó. Tùy thuộc vào sức mạnh của môi trường của bạn, quá trình sẽ mất một lúc để tiếp tục với mô hình.

Neural Network for Model Training

Áp dụng quy trình tương tự để tạo luồng dữ liệu mới, nhưng với một thuật toán khác – Phân loại mạng thần kinh để đào tạo mô hình.

Lưu luồng dữ liệu DF_Eaffee_Attrition_Neural_Network .

Trong tham số Target , bạn vẫn chọn Attrition trong tập dữ liệu để dự đoán, cũng giữ nguyên các tham số khác theo mặc định.

Lưu mô hình với tên DF_Eaffee_Attrition_Neural_Network và nhấp vào Bắt đầu để đào tạo mô hình.

Support Vector Machine

Tiếp tục tạo luồng dữ liệu mới và sử dụng SVM cho thuật toán Phân loại .

  • Tên luồng dữ liệu : DF_Eaffee_Attrition_SVM
  • Tên Model : MD_Eaffee_Attrition_SVM

Lưu mô hình và nhấp vào Bắt đầu để đào tạo.

Đánh giá mô hình

Bạn đã tạo ba luồng dữ liệu và sử dụng ba mô hình trong các thuật toán khác nhau để dự đoán Đánh giá nhân viên. Bây giờ, chúng tôi muốn đánh giá mô hình nào là tốt nhất trong tình huống này.

Trên Trang chủ của Oracle Analytics, hãy nhấp vào góc trên cùng bên trái của menu Bộ điều hướng và điều hướng đến Dữ liệu , sau đó chuyển sang Luồng dữ liệu . Trong danh sách, bạn có thể thấy ba luồng dữ liệu được tạo:

Ở cuối mỗi luồng dữ liệu trong danh sách, hãy nhấp vào biểu tượng bánh hamburger ( menu Tác vụ ) và chọn menu Kiểm tra.

Đánh giá phân loại Naïve Bayes

Chuyển sang tab Nguồn / Mục tiêu > Nhấp vào MD_Eaffee_Attrition_Naive_Bayes trong Mục tiêu

Bạn đã điều hướng đến phần giải thích chi tiết cho mô hình Phân loại Bayes của Naïve . Chuyển sang tab Chất lượng . Kết quả cung cấp ma trận nhầm lẫn và các số liệu chính mà bạn có thể sử dụng để đánh giá chất lượng của mô hình.

Độ chính xác của mô hình : (21 + 234) / 294 = 86,73% ( ~ 87% )

Số liệu này xác định có bao nhiêu dự đoán đúng được thực hiện bởi mô hình này.

Độ chính xác : 21 / (21 + 13) = 61,76% ( ~ 62% )

Chỉ số này xác định tỷ lệ phần trăm các trường hợp được dự đoán thực sự tích cực trên tổng số các trường hợp tích cực được dự đoán. Độ chính xác là một số liệu quan trọng, nhưng nó không có nghĩa là mô hình có giá trị cao nhất của Độ chính xác là lựa chọn tốt nhất. Như bạn thấy trong ma trận nhầm lẫn, mô hình dự đoán tổng cộng 34 trường hợp tích cực, nhưng có 34 trường hợp tích cực thực tế.

Nhớ lại : 21 / (26+ 21) = 44,68% ( ~ 45% )

Chỉ số này đối lập với chỉ số Độ chính xác, nó xác định tỷ lệ phần trăm của các trường hợp thực tế thực sự tích cực trên tổng số các trường hợp thực tế tích cực. Giá trị này là kỳ vọng từ tập dữ liệu đào tạo. Tương tự như Precision, một mô hình có độ thu hồi cao không phải lúc nào cũng là lựa chọn tốt nhất.

Tỷ lệ dương tính giả : 13/247 = 5,26% ( ~ 5% )

Chỉ số này xác định tỷ lệ phần trăm các trường hợp dương tính giả trên tổng số các trường hợp phủ định thực tế. Nếu giá trị chỉ số thấp, điều đó có nghĩa là giá trị Độ chính xác cao.

Tỷ lệ âm tính giả : 26/47 = 55,31% ( ~ 55% )

Chỉ số xác định tỷ lệ phần trăm các trường hợp phủ định giả trên tổng số các trường hợp phủ định thực tế.

Đánh giá phân loại Neural Network

Tiếp tục mở đánh giá cho mô hình đào tạo này:

Đánh giá SVM

Tiếp tục mở đánh giá cho mô hình đào tạo này.

So Sánh

Từ đánh giá, chúng ta hãy tạo một bảng so sánh

Người mẫuMô hình độ chính xácĐộ chính xácHồi tưởngTỷ lệ dương tính giảTỷ lệ phủ định sai
Naïve Bayes87%62%45%5%55%
Mạng thần kinh85%53%51%9%49%
SVM80%42%64%17%36%

Trong bài toán Attrition của Nhân viên, bạn cần biết mô hình nào cung cấp tỷ lệ Attrition cao nhất. Bạn muốn một mô hình để tối đa hóa% Nhớ lại. Nói cách khác, một mô hình cung cấp các dự đoán chính xác về càng nhiều trường hợp thực sự tích cực càng tốt. Nó có nghĩa là mô hình Máy hỗ trợ Véc tơ có thể là một ứng cử viên sáng giá để áp dụng ML vào bài toán Đánh giá nhân viên .

Kết luận

Không có giải pháp hoàn hảo cho bất kỳ vấn đề học máy nào vì nó phụ thuộc vào rất nhiều yếu tố:

  • Bạn có bao nhiêu dữ liệu đào tạo? Càng nhiều dữ liệu đào tạo, càng có nhiều cơ hội lựa chọn mô hình phù hợp.
  • Làm thế nào để bạn và nhóm của bạn hiểu được vấn đề kinh doanh trước khi bắt đầu một dự án ML? Yếu tố này sẽ ảnh hưởng đến việc bạn lựa chọn các thuộc tính / biến cho các dự đoán.

Bạn cần xác định loại vấn đề nào nên được giải quyết bằng Học có giám sát hoặc Học không được giám sát. Sau đó, bạn đào tạo tập dữ liệu của mình trong các mô hình khác nhau và đánh giá chúng để chọn đúng.

Nguồn: Internet

Chúng tôi chuyên cung cấp các dịch vụ về Xây dựng Kho dữ liệu Data Warehouse/ Xây dựng Báo cáo Power BI cho các doanh nghiệp lớn như: Nakagawa, Mutosi, Tinh Vân Group,….. đăng ký ngay để được Demo và tư vấn miễn phí dành riêng cho doanh nghiệp của bạn.

LIÊN HỆ VỚI INDA

TIN TỨC LIÊN QUAN

GỬI THÔNG TIN THÀNH CÔNG!
CHÚNG TÔI SẼ LIÊN HỆ TRONG THỜI GIAN SỚM NHẤT!
CẢM ƠN QUÝ KHÁCH!
GỬI THÔNG TIN THÀNH CÔNG!
CẢM ƠN BẠN ĐÃ ỨNG TUYỂN VÀO CÔNG TY