Chào mừng bạn đến với INDA!

Hotline: (HN) (+84) 986-882-818 | (HCM) (+84) 945-618-746

Nguyên tắc Data Catalog

Nguyên tắc Data Catalog

Nguyên tắc Data Catalog là dữ liệu bạn cần có thể không được lưu trữ thuận tiện chỉ trong một ứng dụng. Nó có thể nằm rải rác trên nhiều nguồn dữ liệu và tồn tại ở dạng hỗn hợp khó chịu của các định dạng khác nhau.

Nguyên tắc Data Catalog

Data Catalog hoạt động như thế nào

Data Catalog kết nối với nguồn dữ liệu của bạn, trích xuất thông tin về dữ liệu bên trong và lưu trữ dữ liệu đó một cách có trật tự, giúp bạn dễ dàng lọc và định vị.

Chúng tôi gọi đây là siêu dữ liệu thông tin được trích xuất, thường được gọi là “dữ liệu về dữ liệu”. Giải pháp Data Catalog càng tiên tiến thì danh mục càng có khả năng thu thập, trích xuất và lưu trữ nhiều siêu dữ liệu hơn. Nếu đủ “thông minh” (hoặc được hỗ trợ bởi AI), Data Catalog thậm chí có thể tạo siêu dữ liệu của riêng nó.

Bạn có thể gọi quá trình này là ghi lại nguồn dữ liệu . Đây là cách một nguồn dữ liệu được ghi lại có thể trông như thế nào.

Nguyên tắc Data Catalog có thể lưu trữ loại siêu dữ liệu nào?

Chúng tôi có thể phân loại siêu dữ liệu thành hai loại: kỹ thuật và kinh doanh.

Ví dụ về siêu dữ liệu kỹ thuật :

  • Số lượng bản ghi và số cột trong tập dữ liệu
  • Các kiểu dữ liệu như được xác định trong nguồn dữ liệu, chẳng hạn như chuỗi, số nguyên, varchar(25), v.v.
  • Tên của lược đồ, phân vùng, bảng và thuộc tính như được thấy trong nguồn dữ liệu
  • Chỉ báo khóa chính và khóa ngoại
  • Hạn chế
  • Mô tả bảng và thuộc tính được nhập từ nguồn dữ liệu

Siêu dữ liệu kinh doanh đa dạng hơn nhiều và bao gồm mọi thông tin mà người dùng cuối sẽ thấy hữu ích khi tìm kiếm dữ liệu phù hợp.

Lợi ích của Data Catalog

Data Catalog cho phép nhiều người dùng khác nhau trong tổ chức thực hiện công việc của họ nhanh hơn và tốt hơn.

Dưới đây là một số ví dụ.

Giảm thời gian tìm kiếm dữ liệu phù hợp

Đến nay, có một thực tế rõ ràng là các nhà khoa học dữ liệu dành 50 đến 80% thời gian để định vị, truy cập và chuẩn bị dữ liệu trước khi họ có thể sử dụng nó. 

Việc lập Data Catalog kinh doanh quan trọng cho phép các nhà khoa học dữ liệu và những người dùng phụ thuộc vào dữ liệu khác tìm thấy dữ liệu phù hợp nhanh hơn nhờ tất cả siêu dữ liệu có sẵn. Họ có thể xem ngay các đặc điểm nguồn, mẫu dữ liệu và chất lượng dữ liệu để hiểu liệu tập dữ liệu họ tìm thấy có phù hợp với mục đích của họ hay không.

Ngoài ra, họ có thể tham khảo dòng dữ liệu để biết thêm ngữ cảnh hoặc sử dụng tính năng phát hiện mối quan hệ do AI cung cấp để tìm các nội dung dữ liệu tương tự hoặc có liên quan. Việc có một nơi tập trung để khám phá dữ liệu sẽ giúp những người dùng này loại bỏ các nút thắt liên quan đến việc thiếu tin cậy vào dữ liệu hoặc thiếu khả năng hiển thị trong bối cảnh dữ liệu của tổ chức.

Một cơ sở dữ liệu quan trọng như vậy là các khách hàng tiềm năng có thể bắt nguồn từ nhiều nền tảng và kênh tiếp thị. Việc xuất khách hàng tiềm năng từ LinkedIn Sales Navigator  hoặc công cụ tạo khách hàng tiềm năng khác sang Data Catalog có thể tiết kiệm thời gian của người dùng bằng cách loại bỏ nhu cầu tìm kiếm và trích xuất dữ liệu theo cách thủ công. 

Điều này có thể tăng năng suất và cho phép người dùng tập trung vào các nhiệm vụ quan trọng hơn.

Tăng tốc quản trị dữ liệu

Siêu dữ liệu được lưu trữ của danh mục là chìa khóa để bắt đầu sáng kiến ​​quản trị dữ liệu . Nó giúp tạo cơ sở cho các bên liên quan và hoạt động quản trị dữ liệu bằng cách cung cấp cái nhìn sâu sắc về trạng thái hiện tại và bản chất của dữ liệu của tổ chức, cách dữ liệu được thu thập, tạo, quản lý và nơi dữ liệu trùng lặp.

Ngoài ra, các khung và chính sách quản trị dữ liệu có thể được ghi lại (và thậm chí được thi hành) trong Data Catalog. Điều này đưa chúng ta đến lợi ích tiếp theo.

Tạo điều kiện thuận lợi cho việc tuân thủ quy định

Data Catalog là một công cụ tuyệt vời để quản lý các yêu cầu bảo vệ và quyền riêng tư dữ liệu. Một cách hữu ích là cho phép các nhân viên bảo vệ dữ liệu lập danh mục và quản lý các yêu cầu pháp lý như GDPR và CCPA. 

Nó cũng cho phép họ tạo báo cáo thường xuyên về các vị trí dữ liệu PII. Họ có thể theo dõi những điểm bất thường và giải quyết ngay những vấn đề này với chủ sở hữu dữ liệu hoặc hệ thống, tức là dữ liệu nhạy cảm xuất hiện ở những nơi không nên xuất hiện.

Phân tích tác động và nguyên nhân gốc rễ

Nguyên tắc Data Catalog càng lớn thì phạm vi tiếp cận của nó càng lớn trong việc đánh giá tác động của những thay đổi đối với một tập dữ liệu nhất định. Bằng cách kiểm tra chặt chẽ các mối quan hệ siêu dữ liệu trong một tập dữ liệu cụ thể, kỹ sư dữ liệu và CNTT có thể xác định tác động của sự thay đổi đối với các công cụ báo cáo xuôi dòng và các hệ thống khác dựa trên những thay đổi đối với một tập dữ liệu nhất định.

Tương tự như vậy, nếu một sự kiện bất lợi đã xảy ra, Nguyên tắc Data Catalog có thể giúp theo dõi nguyên nhân gốc rễ của nó. Ví dụ: những con số trong báo cáo tài chính hàng quý mới không có ý nghĩa gì. Trong trường hợp này, nhà phân tích kinh doanh có thể xem xét dòng dữ liệu của báo cáo này và phát hiện ra vấn đề bất thường hoặc DQ đã “làm hỏng báo cáo”.

Các tính năng phải có của Data Catalog hiện đại

Khám phá dữ liệu và thu thập siêu dữ liệu: Khám phá dữ liệu toàn diện phụ thuộc vào khả năng kết nối linh hoạt với tất cả các hệ thống nguồn cần thiết, bao gồm các ứng dụng và cơ sở dữ liệu. Với sự đa dạng của các nguồn dữ liệu, nguyên tắc Data Catalog hiện đại sẽ cung cấp một số bộ điều hợp dựng sẵn để cho phép tích hợp dễ dàng.

Tìm kiếm và lọc : Tìm kiếm vẫn được cho là tính năng quan trọng nhất của Nguyên tắc Data Catalog. Nếu được triển khai tốt, nó cho phép người dùng khám phá một cách hiệu quả và nhanh chóng tìm thấy các bộ dữ liệu phù hợp với họ. Mặc dù cả yêu cầu tìm kiếm đơn giản và phức tạp đều phải được hỗ trợ, nhưng sẽ tốt hơn nếu AI được sử dụng để cung cấp cho người dùng các đề xuất có liên quan.

Bảng thuật ngữ kinh doanh : Bảng thuật ngữ kinh doanh cho phép các tổ chức ghi lại các thuật ngữ kinh doanh quan trọng nhất của họ và thống nhất về ý nghĩa của chúng, đồng thời các Data Catalog hiện đại thường đi kèm với các bảng thuật ngữ kinh doanh ngay lập tức. 

Việc tích hợp này cho phép gán cả thuật ngữ kinh doanh và kỹ thuật cho bất kỳ nội dung dữ liệu nào được phân loại theo cách thủ công hoặc tự động. Data Catalog thế hệ tiếp theo cũng cho phép liên kết các quy tắc chất lượng dữ liệu với các điều khoản kinh doanh để cho phép giám sát chất lượng dữ liệu tự động

Giám sát chất lượng dữ liệu: Bộ dữ liệu được kiểm kê được hưởng lợi từ việc kiểm tra chất lượng dữ liệu liên tục. Ai muốn sử dụng dữ liệu có nhiều bản sao, giá trị bị thiếu và định dạng không nhất quán? Đây là một tính năng nâng cao mà rất ít nguyên tắc Data Catalog có thể tự hào.

Dòng dữ liệu : Dòng dữ liệu theo dõi nguồn gốc, đích đến và chuyển đổi của bất kỳ nội dung dữ liệu nào trong nguyên tắc Data Catalog. Như đã đề cập trước đó, người dùng có thể sử dụng dòng dữ liệu để giúp theo dõi và hiểu các thay đổi dữ liệu như một phần của phân tích tác động dữ liệu hoặc phân tích nguyên nhân gốc rễ. Nó cũng hữu ích cho việc chuẩn bị các báo cáo bắt buộc theo quy định như BCBS-239.

Hợp tác xã hội : Do sự khác biệt về quy mô giữa nhóm người tạo tập dữ liệu thường nhỏ hơn và cộng đồng người tiêu dùng lớn hơn, nên sự hợp tác giữa hai nhóm là điều cần thiết. Các tính năng như nhận xét, tán thành và chia sẻ giúp tăng tốc độ tiếp nhận dữ liệu và cung cấp cho người dùng một cách hữu cơ để cung cấp phản hồi và quản lý bộ dữ liệu.

Thị trường dữ liệu: Sau khi được mở cho doanh nghiệp, Data Catalog không chỉ là nơi trung tâm để người dùng tìm kiếm dữ liệu mà còn là nguồn tài nguyên để khách hàng nội bộ tải xuống dữ liệu để sử dụng hiệu quả trong các ứng dụng và báo cáo khác. Tuy nhiên, điều quan trọng là quyền truy cập dữ liệu phải được quản lý bởi các chính sách quy định đã được áp dụng cho các miền dữ liệu và ủy quyền vai trò.

Tùy chỉnh: Mỗi tổ chức đều khác nhau và xử lý các loại siêu dữ liệu duy nhất. Đó là lý do tại sao nguyên tắc Data Catalog cần phải đủ linh hoạt để cho phép quản lý bất kỳ loại siêu dữ liệu nào, không chỉ hệ thống nguồn và hồ dữ liệu. Đây có thể là báo cáo BI, API hoặc máy chủ xử lý dữ liệu. Hỗ trợ thêm thuộc tính siêu dữ liệu tùy chỉnh cũng rất quan trọng.

Bài viết trình bày cơ bản nguyên tắc Data Catalog hi vọng sẽ giúp ích được người đọc.

Bạn có thể đọc thêm ở đây.

Cảm ơn bạn đã đọc bài viết. Chúng tôi tự hào cung cấp các dịch vụ đa dạng trong lĩnh vực CNTT, bao gồm:

Triển khai kho dữ liệu DWH: Giải pháp lưu trữ dữ liệu, giúp doanh nghiệp tối ưu hóa việc quản lý và phân tích dữ liệu lớn.

Dịch vụ phát triển phần mềm: Tạo ra các ứng dụng và giải pháp phần mềm tùy chỉnh để đáp ứng nhu cầu cụ thể của bạn.

Dịch vụ IT Outsourcing: Đội ngũ chuyên gia dữ liệu giàu kinh nghiệm, sẵn sàng gia nhập và thúc đẩy dự án của bạn.

Dịch vụ xây dựng báo cáo BI: Chuyển đổi dữ liệu thô thành thông tin chiến lược giúp ra quyết định chính xác hơn.

Đào tạo về dữ liệu: Các khóa học chất lượng cao, thiết kế dành riêng cho doanh nghiệp, giúp nâng cao kỹ năng và kiến thức về dữ liệu của đội ngũ của bạn.

LIÊN HỆ VỚI INDA

TIN TỨC LIÊN QUAN

Hướng dẫn ứng tuyển