Phân tích Dataset

Phân tích Dataset

  1. Sau khi cấu hình import Dataset xong, chúng ta sẽ thấy Data Flow được biểu diễn như hình dưới.
  • Click dấu +.
  • Click Edit data types.

Studio

2.Bạn sẽ có cái nhìn tổng quan về tập dữ liệu với tên và loại cột:

Studio

Thông tin chi tiết của các features được mô tả dưới đây:

Thông tin cá nhân

  • age : Tuổi khách hàng (numeric)
  • job : Nghành nghề ( Chia theo nhóm : ‘admin.’, ‘services’, …)
  • marital : Tình trạng hôn nhân ( Chia theo nhóm : ‘married’, ‘single’, …)
  • education : Tình trạng học vấn ( Chia theo nhóm : ‘basic.4y’, ‘high.school’, …)

Sự kiện khách hàng

  • default : Có sử dụng credit hay không ? ( Chia theo nhóm: ‘no’, ‘unknown’, …)
  • housing : Có vay mua nhà không ? ( Chia theo nhóm: ‘no’, ‘yes’, …)
  • loan : Có khoản vay cá nhân không ? ( Chia theo nhóm: ‘no’, ‘yes’, …)

Thông tin liên lạc phục vụ marketing

  • contact : Phương thức liên lạc ( Chia theo nhóm: ‘cellular’, ‘telephone’, …)
  • month : Tháng liên lạc lần cuối trong năm ( Chia theo nhóm: ‘may’, ‘nov’, …)
  • day_of_week : Ngày liên lạc lần cuối trong tuần ( Chia theo nhóm: ‘mon’, ‘fri’, …)
  • duration : Thời gian lần liên lạc cuối, theo giây(numeric). Ghi chú quan trọng: Nếu duration = 0 thì y = ‘no’.

Thông tin chương trình

  • campaign : Số lượng liên lạc thực hiện trong campaign (chương trình )với khách hàng (numeric, kèm lần liên lạc cuối)
  • pdays : Số ngày đã qua từ khi khách hàng liên lạc lần cuối từ một chương trình trước. (numeric)
  • previous : Số lần liên lạc thực hiện trước chương trình với khách hàng.(numeric)
  • poutcome : Kết quả của chương trình marketing. ( Chia theo nhóm: ‘nonexistent’,‘success’, …)

Yếu tố tác động bên ngoài.

  • emp.var.rate : Tỷ lệ thay đổi việc làm - chỉ số hàng quý (numeric)
  • cons.price.idx : Chỉ số giá tiêu dùng - chỉ số hàng tháng (numeric)
  • cons.conf.idx : Chỉ số niềm tin người tiêu dùng - chỉ số hàng tháng (numeric)
  • euribor3m : Lãi suất Euribor 3 tháng - chỉ báo hàng ngày (numeric)
  • nr.employed : Số lượng nhân viên - chỉ số hàng quý (numeric)

Biến mục tiêu.

  • y : Khách hàng có gửi tiền theo kỳ hạn không ?(binary: ‘yes’,‘no’)

Chúng ta sẽ không thực hiện thay đổi kiểu dữ liệu ở bước này. Click vào Back to data flow để quay trở lại.

  1. Click vào dấu + và click Add analysis. Studio

  2. Click chọn Table Summary, đặt tên analysis là Summary.

  • Click Preview. Studio
  1. Thông tin summary của Dataset của chúng ta sẽ được tính toán và hiển thị.
  • Click Save để lưu thông tin phân tích của chúng ta. Studio

Bạn đã hoàn thành tìm hiểu cấu trúc dữ liệu và tạo một phân tích summary cơ bản từ Dataset bank-additional-full.csv. Bước tiếp theo chúng ta sẽ thực hiện phân tích mối tương quan giữa các feature và biến số đích.( y : Khách có gửi tiền có kỳ hạn không ) Studio