Phân tích phân khúc khách hàng là một vấn đề kinh doanh phổ biến, đặc biệt là trong lĩnh vực Bán lẻ, nơi các công ty cần khám phá dữ liệu và phân nhóm khách hàng dựa trên các thuộc tính của khách hàng, nhân khẩu học và giao dịch của khách hàng. Kết quả phân tích phân khúc khách hàng cho phép các nhà bán lẻ hiểu được hành vi của khách hàng và tạo ra các chiến dịch hiệu quả.
Hướng dẫn này sẽ mô tả cách sử dụng Luồng dữ liệu trong Oracle Analytics để giải quyết vấn đề Phân khúc khách hàng (dữ liệu được lưu trữ trong Kho dữ liệu tự trị).
Các giai đoạn vòng đời của dự án
Hầu hết các dự án khoa học dữ liệu liên quan đến năm giai đoạn của Phát triển vòng đời dự án:
- Định nghĩa vấn đề kinh doanh . Xác định những vấn đề kinh doanh bạn cần giải quyết và bắt đầu xác định dữ liệu cần thiết: nguồn dữ liệu, thuộc tính và cách dữ liệu sẽ được chuyển đổi.
- Trích xuất dữ liệu . Xác định các quy trình để trích xuất dữ liệu.
- Thực hiện mô hình . Xác định các thuật toán và mô hình cần thiết để giải quyết các vấn đề kinh doanh dựa trên việc đào tạo tập dữ liệu. Trong giai đoạn này, bạn có thể cần chạy các thuật toán và mô hình khác nhau để tìm ra những thuật toán và mô hình trả về kết quả chính xác nhất.
- Xác minh mô hình . Áp dụng các thuật toán và mô hình cho tập dữ liệu thử nghiệm của bạn.
- Triển khai mô hình . Sau khi xác minh mô hình, hãy triển khai mô hình và chạy nó trên tập dữ liệu thực.
Lặp lại các giai đoạn này cho đến khi bạn giải quyết hoàn toàn các vấn đề kinh doanh.
Điều kiện tiên quyết
- Tải xuống và cài đặt phiên bản mới nhất của Oracle Analytics Desktop (hiện tại là phiên bản 6.0)
- Cung cấp cơ sở dữ liệu Kho dữ liệu tự trị
Tổng quan về nguồn dữ liệu
Chúng tôi sẽ làm việc trên tập dữ liệu khách hàng Thương mại điện tử liệt kê các giao dịch mua được thực hiện bởi 4000 khách hàng. Nó có 8 cột: InvoiceNo, StockCode, Description, Quantity, InvoiceDate, UnitPrice, CustomerID, Country.
Mở Oracle Analytics Desktop và nhấp vào Add để nhập tập dữ liệu:
Bạn có thể xem một số tóm tắt về dữ liệu cấu hình cho 8 trường ở trên. Có một thông báo trên CustomerID – rất nhiều Hóa đơn thiếu ID khách hàng (29%) và giá trị Country cũng bị thiếu khoảng 1%.
Chuẩn bị dữ liệu
- Chuyển đổi CustomerID thành kiểu dữ liệu Text và Treat as > Attribute . Nhấp vào biểu tượng Menu của trường CustomerID và Convert to Text :
- Tiếp tục nhấp vào Menu của CustomerID > Edit . Bạn cần thay thế bất kỳ CustomerID bị thiếu nào bằng giá trị N / A.
- Nhập biểu thức: IFNULL (CustomerID, ‘N / A’)
- Nhấp vào Add Step và Apply Script
- Chuyển đổi dữ liệu hóa đơn thành số. Nhấp vào Menu trên InvoiceDate và Convert to Date
- Đảm bảo rằng định dạng Date là MM / dd / yyyy HH: mm
- Nhấp vào Add Step và Apply Script để áp dụng các thay đổi cho InvoiceDate
Triển khai mô hình
Chúng tôi sẽ tạo Luồng dữ liệu và sử dụng các thuật toán Học máy được xây dựng sẵn để đào tạo tập dữ liệu. Phân khúc khách hàng chủ yếu đề cập đến một số thuật toán phổ biến để xây dựng mô hình:
- K-Mean Clustering
- Phân cụm phân cấp
K-Means Clustering for Model Training
K-Mean là mô hình đầu tiên được sử dụng để xây dựng Phân nhóm khách hàng. Đây là một trong những thuật toán học không giám sát đơn giản nhất được áp dụng để giải quyết vấn đề phân cụm.
Tạo luồng dữ liệu mới và thêm tập dữ liệu Mua hàng của khách hàng thương mại điện tử mà bạn đã nhập trước đó. Lưu luồng dữ liệu dưới dạng DF_Customer_Segmentation_K_Mean
Nhấp vào biểu tượng Dấu cộng trên tập dữ liệu đã thêm và chọn Train Clustering
Bạn sẽ thấy một cửa sổ bật lên Select Train Clustering Model Script . Chọn K-Means Clustering for model training
Kiểm tra tất cả các tham số đã khởi tạo cần thiết cho K-Means Clustering và giải thích của từng tham số
- Số cụm: 8
- Số lần lặp lại: 30
- Số lần bắt đầu chạy: 10
Nhấp vào Save Model và nhập tên – MD_Customer_Segmentation_K_Means
Lưu luồng dữ liệu và nhấp vào Start để chạy luồng dữ liệu này. Quá trình này sẽ mất một thời gian để tiến hành mô hình.
Hierarchical Clustering for Model Training
Quá trình tương tự cũng diễn ra để tạo luồng dữ liệu mới. Tuy nhiên, ở giai đoạn triển khai mô hình, bạn nên chọn một thuật toán khác -Hierarchical Clustering for Model Training
Để cài đặt của tất cả các thông số làm mặc định:
Lưu mô hình với tên MD_Customer_Segmentation_Hierarchical_Clustering và nhấp vào Start để chạy nó.
Lưu ý : Nếu bạn đang sử dụng Oracle Analytics Desktop, bạn có thể gặp phải một số vấn đề về hiệu suất với Phân cụm phân cấp. Sau đó, bạn có thể cần phải bắt đầu thử với Oracle Analytics Cloud.
Triển khai mô hình
Sau khi tạo mô hình bằng thuật toán K-Means , bạn cần áp dụng mô hình này vào tập dữ liệu của mình. Lưu ý rằng bạn chỉ chọn 80% bản ghi có trong tập dữ liệu cho quá trình Đào tạo trong Triển khai Mô hình. Tham số Phần trăm Train Partition là 80.
Tạo luồng dữ liệu mới để áp dụng cho mô hình MD_Customer_Segmentation_K_Means . Sau đó lưu luồng dữ liệu dưới dạng DF_Customer_Segmentation_K_Means_Apply . Thêm tập dữ liệu Mua hàng của Khách hàng Thương mại Điện tử .
Nhấp vào biểu tượng Dấu cộng của tập dữ liệu này và chọn Apply Model
Bạn sẽ thấy cửa sổ bật lên Select Model . Chọn mô hình cho MD_Customer_Segmentation_K_Means.
Kết quả đầu ra của quá trình này là một tập dữ liệu hiển thị các giá trị trả về của thuật toán K-Means, chẳng hạn như ClusterName, ClusterDescription, ClusterSize, DistanceFromCenter và Center . Bạn có thể đổi tên các cột trong kết quả đầu ra.
Nhấp vào biểu tượng Dấu cộng của Apply Model và chọn Save Data
Nhập tên của tập dữ liệu – E-commerce Customer Segmentation Clusters (K-Means). Các cột đầu ra của tập dữ liệu là sự kết hợp giữa tập dữ liệu Khách hàng thương mại điện tử và kết quả đầu ra của K-Means.
Lưu luồng dữ liệu và nhấp vào Start để chạy
Bây giờ, đầu ra của luồng dữ liệu đã được thực hiện. Bạn có thể bắt đầu trực quan hóa Phân tích phân khúc khách hàng.
Tập dữ liệu đã lưu là Nhóm phân khúc khách hàng thương mại điện tử (K-Means).
Điều hướng đến Home và Data . Bạn có thể thấy tập dữ liệu được tạo:
Nhấp vào tập dữ liệu để khám phá cấu hình dữ liệu:
Bây giờ, chúng ta có thể bắt đầu hình dung tập dữ liệu này để tìm ra các mẫu cho Phân khúc khách hàng.
Kết luận
Trong một dự án khoa học dữ liệu, bạn thường tự hỏi:
- Sử dụng mô hình nào
- Cấu hình thông số nào cho mỗi mô hình / thuật toán để sử dụng
Trên thực tế, không có mô hình và cấu hình vàng để giải quyết tất cả các vấn đề kinh doanh. Tùy thuộc vào tập dữ liệu (thuộc tính) và kinh nghiệm của bạn, bạn có thể thử các mô hình và thuật toán khác nhau. So sánh đầu ra của chúng (độ chính xác, hiệu suất) và điều chỉnh các thông số cho nhu cầu của bạn.
Trong Oracle Analytics, bạn có thể tạo Luồng dữ liệu ban đầu, chọn mô hình có các tham số và lưu Luồng dữ liệu và mô hình. Lặp lại quá trình này cho đến khi bạn tìm thấy các thông số và mô hình phù hợp để giải quyết các vấn đề kinh doanh của mình.
Nguồn: Internet
Chúng tôi chuyên cung cấp các dịch vụ về Xây dựng Kho dữ liệu Data Warehouse/ Xây dựng Báo cáo Power BI cho các doanh nghiệp lớn như: Nakagawa, Mutoshi, Tinh Vân Group,….. đăng ký ngay để được Demo và tư vấn miễn phí dành riêng cho doanh nghiệp của bạn.