Chào mừng bạn đến với INDA!

Hotline: (HN) (+84) 986-882-818 | (HCM) (+84) 945-618-746

Nâng cao phân tích với Oracle Data Analytics – Xử lý với chức năng của Trình tạo nhanh

Nâng cao phân tích với Oracle Data Analytics – Xử lý với chức năng của Trình tạo nhanh

Bài viết này hoàn thành loạt bài đăng dành riêng cho Phân tích nâng cao với Oracle Data Analytics. Trước đây, chúng tôi đã khám phá các chỉ số như Reference Line Forecast Line , các tính năng Outliers, Clusters, and Explain . Phương pháp kéo và thả giúp xây dựng hình ảnh tương tác và nhiều thông tin của bạn để xem dữ liệu.

Phần này của tài liệu sẽ tập trung vào chức năng Express Builder . Tính năng này đặc biệt hữu ích cho những người dùng nâng cao hiểu biết sâu hơn về khoa học dữ liệu và thống kê. Nó là cần thiết vì người dùng cần kiểm soát nhiều hơn các chức năng và thông số nâng cao. Nó cũng cung cấp các tập lệnh Python đang chạy để phân tích dữ liệu.

Tạo chức năng Trendline

Trước khi bắt đầu cấu hình, chúng ta nên làm quen với các thuật ngữ cơ bản mà chúng ta sẽ giải quyết trong bài viết này.

Trendline definition là một hàm phù hợp với mô hình tuyến tính hoặc hàm mũ và trả về các giá trị hoặc mô hình phù hợp. Số_expr đại diện cho giá trị Y cho xu hướng. Chuỗi (cột thời gian) đại diện cho giá trị X.

Cú pháp:

TRENDLINE(numeric_expr, ([series]) BY ([partitionBy]), model_type, result_type)

  • numeric_expr đại diện cho dữ liệu theo xu hướng. Đây là trục Y, thường là một cột đo.
  • series is the X-axis là danh sách các cột thuộc tính số hoặc thứ nguyên thời gian.
  • partitionBY là danh sách các cột thuộc tính thứ nguyên có trong dạng xem nhưng không nằm trên trục X.
  • model_type là một trong những kiểu sau (‘LINEAR’, ‘EXPONENTIAL’).
  • result_type là một trong các giá trị sau (‘VALUE’, ‘MODEL’). ‘ VALUE ‘ sẽ trả về tất cả các giá trị hồi quy Y đã cho X phù hợp. ‘MODEL’ sẽ trả về tất cả các tham số trong một chuỗi định dạng JSON.

Thí dụ:

TRENDLINE(revenue, (calendar_year, calendar_quarter, calendar_month) BY (product), ‘LINEAR’, ‘VALUE’)

Để xây dựng hàm, hãy làm như sau:

  • Nhấp chuột phải vào My Calculation > Add Calculation
  • Nhập tên: Sales Trend
  • Nhập biểu thức:

TRENDLINE((Sales),(Order Date) BY (Product Sub Category), ‘LINEAR’, ‘VALUE’)

Trong biểu thức này

  • numeric_expr = Sales
  • series = Order Date (Time dimension)
  • partitionBy = Product Sub Category
  • model_type = LINEAR
  • result_type = VALUE

Mục đích của biểu thức này là xây dựng Trend of Product Sub Category bằng cách sử dụng hồi quy tuyến tính . Hãy nhớ rằng các hàm Trend or Forecast dựa trên Time series , vì vậy chúng cũng yêu cầu Time dimension.

Xây dựng xu hướng của danh mục phụ sản phẩm sử dụng hồi quy tuyến tính
  • Kéo và thả  Sales and Order Date vào Visualization
  • Chọn loại biểu đồ đường
  • Nhấp chuột phải vào visual > Add statistics > Trend
Xu hướng trong Phân tích bán hàng nâng cao
  • Kéo và thả  Product Sub CategoryYear of Order Date vào Filter Canvas
  • Lọc Product Sub CategoryAppliances và năm 2014

Bây giờ, hãy xây dựng một hình ảnh khác với tính toán Sales Trend đã tạo.

  • Kéo và thả Sales, Sales Trend (Giá trị (Trục Y)) và Order Date (Danh mục (Trục X)) vào Visualization
  • Chọn loại biểu đồ đường
  • Kéo và thả Product Sub Category thành Color trong visual
Kéo và thả Danh mục phụ sản phẩm thành Màu trong trực quan của Phân tích bán hàng nâng cao

Trong hình ảnh trực quan này, chúng tôi sử dụng một chức năng tùy chỉnh với tính toán Sales Trend bằng cách sử dụng chức năng Trendline thay vì sử dụng tính năng Trend như bạn đã làm. Trend line giống nhau trên cả hai hình ảnh

Tạo chức năng Forecast

Chức năng Forecast tạo mô hình chuỗi thời gian của phép đo được chỉ định trên chuỗi bằng cách sử dụng Exponential Smoothing or ARIMA. Nó xuất ra dự báo cho tập hợp các khoảng thời gian được chỉ định bởi numPeriod .

Cú pháp:

FORECAST(numeric_expr, ([series]), output_column_name, options, [runtime_binded_options])

  • số _expr đại diện cho thước đo cần dự báo.
  • series là thời gian mà tại đó mô hình dự báo được xây dựng. Đây là danh sách gồm một hoặc nhiều cột thứ nguyên thời gian. Nếu chuỗi bị bỏ qua, thời gian sẽ được xác định từ truy vấn.
  • output_column_name là cột đầu ra. Các giá trị hợp lệ là ‘forecast’, ‘low’, ‘high’, ‘predictionInterval’
  • Options tùy chọn cho danh sách chuỗi các cặp tên = giá trị được phân tách bằng ‘;’ . Giá trị có thể bao gồm% 1…% N, được chỉ định bằng runtime_binded_options .
  • runtime_binded_options là một danh sách tùy chọn được phân tách bằng dấu phẩy gồm các cột ràng buộc thời gian chạy hoặc các biểu thức chữ .

Ví dụ :

FORECAST(revenue, (time_year, time_quarter), ‘forecast’, ‘modelType=arima;numPeriods=%1;predictionInterval=70;’, 3)

Bây giờ, hãy làm việc với một ví dụ. Tạo một phép tính mới và nhập tên Sales Forecast. Chúng tôi đang tạo Dự báo về doanh số trong 90 ngày tới bằng cách sử dụng thuật toán ARIMA và Khoảng tin cậy là 70%

Nhập biểu thức:

FORECAST(Sales, (Order Date), ‘forecast’, ‘modelType=arima;numPeriods=90;predictionInterval=90;’)

tạo Dự báo về Doanh số trong 90 ngày tới bằng cách sử dụng thuật toán ARIMA và Khoảng tin cậy là 70%
  • Nhấp vào Save
  • Kéo và thả Sales, Sales ForecastOrder Date vào Visualization
  • Chọn loại biểu đồ đường
  • Lọc Order Date cho dữ liệu của năm 2015
Lọc Ngày đặt hàng cho dữ liệu của năm 2015

Hãy so sánh phép tính này với chức năng Forecast dựng sẵn được hỗ trợ tự động.

  • Kéo và thả Thước đo SalesOrder Date vào Visualization
  • Chọn loại biểu đồ đường
  • Nhấp chuột phải vàovisual > Add statistics > Forecast
Dự báo trong Phân tích bán hàng nâng cao

Đảm bảo rằng bạn chọn mô hình ARIMA và Khoảng thời gian 90 ngày cho Analytics của hình ảnh trực quan này.

Bây giờ, chúng ta hãy quan sát dòng Forecast trên hình ảnh này và so sánh nó với hình ảnh được tạo trước đó.

So sánh các dòng dự báo trong Phân tích bán hàng nâng cao

Tạo hàm Cluster

Hàm Cluster nhóm một tập hợp các bản ghi thành các nhóm dựa trên một hoặc nhiều biểu thức đầu vào bằng cách sử dụng K-Means hoặc Hierarchical Clustering.

Cú pháp :

CLUSTER((dimension_expr1 , … dimension_exprN), (expr1, … exprN), output_column_name, options, [runtime_binded_options])

  • mens_expr đại diện cho danh sách các thứ nguyên, ví dụ: (productID, companyID), được nhóm lại.
  • expr đại diện cho danh sách các thuộc tính thứ nguyên hoặc các thước đo được sử dụng để phân cụm dimension_expr.
  • output_column_name là cột đầu ra. Các giá trị hợp lệ là ‘clusterId’, ‘clusterName’, ‘clusterDescription’, ‘clusterSize’, ‘distanceFromCenter’, ‘center’.
  • options có nghĩa là danh sách chuỗi các cặp tên = giá trị được phân tách bằng ‘;’ . Giá trị có thể bao gồm% 1…% N, được chỉ định bằng runtime_binded_options.
  • runtime_binded_options là một danh sách tùy chọn được phân tách bằng dấu phẩy gồm các cột liên kết thời gian chạy hoặc các biểu thức chữ .

Ví dụ :

CLUSTER((product, company), (billed_quantity, revenue), ‘clusterName’, ‘algorithm=k-means;numClusters=%1;maxIter=%2;useRandomSeed=FALSE;enablePartitioning=TRUE’, 5, 10)

Chúng ta hãy tiến hành thực hành. Thêm một phép tính mới và nhập tên Clustered City. Tính toán này phải nhóm danh sách các thành phố theo Lợi nhuậnDoanh số và chia thành 4 nhóm.

Nhập biểu thức:

CLUSTER((City), (Profit,Sales), ‘clusterName’, ‘algorithm=k-means;numberClusters=4;maxlter=10;’)

nhóm danh sách các thành phố theo Lợi nhuận và Doanh số và chia thành 4 nhóm
  • Kéo và thả City, ProfitSales vào Visualization
  • Chọn loại biểu đồ phân tán
  • Kéo và thả Clustered City thành Color
Kéo và thả Clustered City thành Màu trong Phân tích bán hàng nâng cao

Giờ đây, bạn có thể tạo một hình ảnh trực quan mới, sử dụng chức năng Cluster được hỗ trợ trực tiếp và so sánh nó với chức năng Cluster tùy chỉnh.

Kết luận

Các khả năng Phân tích nâng cao trong Phân tích dữ liệu Oracle có thể được thêm vào biểu đồ / hình ảnh theo những cách khác nhau.

Nhấp chuột phải vào charts/visuals > chọn Add Statistics.

Thêm thống kê trong phân tích bán hàng nâng cao

Chuyển đến Chart Properties dưới cùng bên trái :

bảng điều khiển Thuộc tính biểu đồ dưới cùng bên trái

Xây dựng các chức năng của bạn bằng cách sử dụng Trình tạo Biểu thức trong Trendline, Forecast, Cluster, Outlier, và các chức năng khác. Tùy chọn này cho phép bạn tùy chỉnh các giá trị của thông số của từng chức năng Phân tích nâng cao, vì chúng tôi đã khám phá một vài ví dụ về nhiều thông số.

Nguồn: Internet

Chúng tôi chuyên cung cấp các dịch vụ về Xây dựng Kho dữ liệu Data Warehouse/ Xây dựng Báo cáo Power BI cho các doanh nghiệp lớn như: Nakagawa, Mutoshi, Tinh Vân Group,….. đăng ký ngay để được Demo và tư vấn miễn phí dành riêng cho doanh nghiệp của bạn.

LIÊN HỆ VỚI INDA

TIN TỨC LIÊN QUAN

GỬI THÔNG TIN THÀNH CÔNG!
CHÚNG TÔI SẼ LIÊN HỆ TRONG THỜI GIAN SỚM NHẤT!
CẢM ƠN QUÝ KHÁCH!
GỬI THÔNG TIN THÀNH CÔNG!
CẢM ƠN BẠN ĐÃ ỨNG TUYỂN VÀO CÔNG TY