Export Data tới S3

Export Data tới S3 để chuẩn bị cho việc training

  1. Trong giao diện SageMaker Studio. Click vào biểu tượng folder.
  • Click vào folder amazon-sagemaker-immersion-day.

Studio

  1. Double click vào file feature_store_xgboost_direct_marketing_sagemaker.ipynb .

Studio

  1. Bạn sẽ được hỏi chọn lựa kernel.
  • Chọn Python 3 (Data Science).
  • Click Select.

Studio

  1. Chúng ta sẽ thấy khi file note book được mở ra sẽ có thông tin cấu hình note book instance 2 vCPU + 4GB.

Studio

  1. Thực hiện Cell 1 và 2 bằng cách click chọn vào cell và ấn tổ hợp phím Shift + Enter.

Studio

  1. Để có thể thực hiện bước train (được đề cập trong phần 3), chúng ta cần truy xuất tập dữ liệu đã chuyển đổi (bao gồm các feature phù hợp) từ Amazon Feature Store và đưa nó vào Pandas data frame.

    Ở bước dưới đây chúng ta sẽ cần thay giá trị YOUR FEATURE GROUP NAME bằng giá trị feature group chúng ta đã tạo trước khi thực thi cell này.

Studio

Click vào tab Feature Store. Bạn có thể lấy được thông tin feature group name.

Studio

  1. Sau khi đã cập nhật feature group name và thực thi cell trên, bạn có thể thực thi các cell sau. Bạn sẽ có thể truy xuất tập dữ liệu từ Amazon Feature Store dưới dạng Pandas data frame.

Studio

  1. Trong 3 cell cuối cùng này chúng ta sẽ lần lượt thực hiện:
  • Chia tập dữ liệu của mình thành 3 tập: train, test , validation.
  • Thuật toán Amazon SageMaker XGBoost dự kiến ​​dữ liệu phải ở định dạng libSVM hoặc CSV (không có tiêu đề) và cột đầu tiên phải là biến mục tiêu. Vì vậy, ở cell tiếp theo chúng ta chuyển đổi dữ liệu cho phù hợp
  • Ở cell cuối cùng chúng ta sẽ upload dữ liệu lên S3.

Studio

  1. Sau khi thực thi hết các cell trong note book, bạn có thể kiểm tra dữ liệu trong S3 như hình dưới. Studio

Xin chúc mừng!! Bạn đã chuẩn bị thành công dữ liệu để train model XGBoost. Trong phần 2 này, bạn đã trải qua quá trình thiết lập môi trường cần thiết và sử dụng kỹ thuật để làm sạch dữ liệu và chuẩn bị dữ liệu của bạn cho việc build, train model. Trong phần tiếp theo, chúng ta sẽ thực hiện train, tuning và deploy model XGBoost bằng thuật toán XGBoost tích hợp sẵn của SageMaker.