Feature Store

Export Feature vào SageMaker Feature Store.

Amazon SageMaker Feature Store là một kho lưu trữ được xây dựng để lưu trữ và truy cập các feature để dễ dàng đặt tên, sắp xếp và sử dụng lại chúng trong các đội nhóm khác nhau.

SageMaker Feature Store cung cấp một kho lưu trữ thống nhất cho các feature trong quá trình train và real-time inference mà không cần viết thêm mã hoặc tạo quy trình thủ công để giữ cho các feature nhất quán.

SageMaker Feature Store theo dõi metadata của các feature được lưu trữ (ví dụ: tên feature hoặc số phiên bản) để bạn có thể truy vấn các feature cho đúng thuộc tính theo batch hoặc trong thời gian thực bằng cách sử dụng Amazon Athena, một dịch vụ truy vấn tương tác.

SageMaker Feature Store cũng luôn cập nhật các feature, vì dữ liệu mới được tạo ra trong quá trình inference, kho lưu trữ duy nhất được cập nhật nên các feature mới luôn có sẵn cho các model sử dụng trong quá trình train và inference.

  1. Click Export tab.
  • Click chọn tất cả các bước chuyển đổi dữ liệu.
  • Click Export step.

Studio

  1. Click chọn Feature Store.

Studio

Như bạn có thể thấy trên hình trên, chúng ta có thể xuất trực tiếp các feature được tạo sau khi chuyển đổi sang Amazon S3. Tuy nhiên trong workshop này, trước tiên chúng ta sẽ xuất sang Amazon Feature Store (offline) để minh họa cách sử dụng dịch vụ này.
Feature Store được sử dụng làm nơi lưu trữ tập trung cho tất cả các feature có khả năng được tạo bởi nhiều team khác nhau và sau đó cũng có thể được truy xuất bởi nhiều team. Chúng ta sẽ truy xuất các tính năng từ Amazon Feature Store và chia chúng thành tập dữ liệu training và dữ liệu phục vụ validation/test . Sau đó, chúng ta sẽ export vào Amazon S3 trước giai đoạn training trong Amazon SageMaker.

  1. Thao tác export này tạo một note book giúp tạo một feature group và thêm các feature vào feature store bằng cách sử dụng data flow Data Wrangler mà chúng ta đã tạo. Studio

  2. Chúng ta cùng xem cell đầu tiên của notebook. Studio

  3. Copy và Paste đoạn code dưới đây để cập nhật các thông tin biến giúp xác định feature store.

record_identifier_feature_name = "FS_ID"
if record_identifier_feature_name is None:
   raise SystemExit("Select a column name as the feature group record identifier.")

event_time_feature_name = "FS_time"
if event_time_feature_name is None:
   raise SystemExit("Select a column name as the event time feature name.")

Studio

  1. Tiếp tục thực thi cell thứ 2 và cell thứ 3. ( Thực thi bằng cách click chuột vào cell và ấn Shift + Enter )

  2. Tại cell thứ 4 chúng ta sẽ thay đổi giá trị enable_online_store = true thành enable_online_store = false vì trong workshop này chúng ta không sử dụng tính năng online feature store để thực hiện lấy feature training trong real-time inference.

  • Cell 4 trước khi thay đổi.

Studio

  • Cell 4 sau khi thay đổi.

Studio

  1. Tiếp tục thực thi tất cả các cell còn lại tuần tự.

Studio

  1. Kết quả thực thi hoàn tất như hình dưới, quá trình thực thi khoảng 10 phút.

Studio

Kiểm tra Feature Store

  1. Click chọn Feature Store.

Studio

  1. Double click vào feature group name.

Studio

  1. Chúng ta sẽ xem được thông tin chi tiết về feature group.

Studio

  1. Click vào tab Feature definition. Lưu lại thông tin Feature definition vào công cụ ghi chú của bạn để sử dụng sau này.

Studio

  1. Bạn có thể truy cập vào giao diện management console của SageMaker.
  • Click Processing.
  • Bạn sẽ thấy một công việc xử lý của **Data Wrangler flow ** export dữ liệu vào feature store.

Studio

  1. Bạn có thể click vào job để xem thông tin chi tiết.

Studio

Lấy thông tin từ Feature Store sử dụng Amazon Athena.

SageMaker Feature Store metadata cũng được lưu trữ trong AWS Glue và chúng ta có thể thực hiện truy vấn thông qua Amazon Athena.

  1. Truy cập tới giao diện dịch vụ Amazon Athena.

Studio

  1. Click vào đường link set up a query result location in Amazon S3.

Studio

  1. Tại mục **Query result location **, click Select.

Studio

  1. Click biểu tượng mũi tên kế bên bucket sagemaker-studio-**.

Studio

  1. Chọn folder bank-additional.
  • Click Select.

Studio

  1. Click Save.

Studio

  1. Thực hiện câu truy vấn dưới đây để truy vấn thông tin từ feature store. Bạn sẽ cần thay thế thông tin YOUR FEATURE GROUP TABLE NAME bằng thông tin feature group tables nằm bên menu tay trái.
SELECT *
FROM "YOUR FEATURE GROUP TABLE NAME"
LIMIT 1000

Studio Bạn đã hoàn thành tạo cácphân tích tương quan giữa các feature và biến mục tiêu. Bước tiếp theo, chúng ta sẽ thực hiện chuyển đổi dữ liệu.