Dữ liệu (Data) được hiểu đó là các tài liệu (Number, Text, Images, Audio, Video…) mô tả các đối tượng (objects), sự kiện (events), hoạt động (activities). Dữ liệu được thu thập thông qua quá trình điều tra thu thập dữ liệu (quan sát, đo đạt, phỏng vấn…).
Data hay Datum? Datum là dạng số ít còn Data là dạng số nhiều. Tuy nhiên, hiện nay Data được dùng phổ biến và khi nói về Data thì ít khi người ta đề cập đến số ít hay số nhiều.
Dữ liệu định tính (Qualitative) và dữ liệu định lượng (Quantitative)
Dữ liệu có thể là dữ liệu định tính hoặc định lượng
- Dữ liệu định tính (Qualitative data): Mô tả tính chất của đối tượng (đẹp, xấu, cao, thấp…)
- Dữ liệu định lượng (Quantitative data): Mô tả bằng số, dữ liệu định lượng được chia thành 2 loại đó là dữ liệu rời rạc (Discrete) và dữ liệu liên tục (Continuous).
Discrete data: Nhận những giá trị chắc chắn, rời rạc (có thể đếm được)
Continuous data: Có thể nhận các giá trị bất kỳ trong một khoảng xác định.
Ví dụ: dữ liệu mô tả về con ngựa như sau
Qualitative Data:
- Có đuôi dài
- Có màu nâu
- Chạy nhanh
Quantitative Data:
- Discrete:
- Có 4 chân
- Có 2 mắt
- Có 2 tai
- Continuous:
- Trọng lượng 325.5 kg
- Chiều cao 1.55m
Thu thập dữ liệu (Collecting Data)
Có rất nhiều cách để thu thập dữ liệu như quan sát, phỏng vấn… Khi thu thập dữ liệu cho một nghiên cứu nào đó, nếu thu thập được tất cả các dữ liệu liên quan đến nghiên cứu gọi là tổng thể (population), nếu chỉ thu thập một số dữ liệu trong tổng thể nghiên cứu gọi là mẫu (sample). Rõ ràng rất khó (hầu như không thể) để thu thập hết dữ liệu của tổng thể nên thường người ta nghiên cứu trên mẫu để đưa ra các suy đoán về tổng thể. Vấn đề ở đây là làm sao lấy mẫu đủ tốt (tin cậy) để đưa ra các suy đoán chính xác về tổng thể.
Accuracy và Precision : Accuracy và Precision đều đề cập đến tính chính xác, tuy nhiên 2 khái niệm nay có ý nghĩa khác nhau.
Accuracy: Cho biết giá trị đo lường (dự đoán) sai khác thế nào so với giá trị thực (đã biết)
Precision: Cho biết các giá trị đo lường (dự đoán) sai khác thế nào với nhau.
Ví dụ về Accuracy và Precision
Ví dụ: Nếu bạn chơi đá bóng mà bạn shút bóng lần nào cũng chệch về góc trái của khung thành thì trong tình huống này Accuracy là rất thấp (=0) nhưng Precision là rất cao.
Sai số trong đo lường (Errors in Measurement)
Do các dụng cụ đo lường không chính xác tuyệt đối, nên thường gây ra sai số. Để mô tả sai số khi đo lường, người ta ghi thêm ± sai số đo lường.
Ví dụ, chiều dài của hàng rào đo được là 12.5m, sai số 0.05m, được ghi là Chiều dài hàng rào = 12.5 ±0.05 m, người ta còn gọi là chính xác đến 0.1m (=0.05m x 2). Điều này có nghĩa là chiều dài của hàng rào nằm trong khoảng 12.45m đến 12.55m.
Sai số tuyệt đối (Absolute Error), sai số tương đối (Relative Error) và Sai số phần trăm (Percentage Error)
Absolute Error: Là sự khác nhau giữa giá trị thực và giá tri đo lường được. Do không biết được giá trị thực của đối tượng được đo lường nên người ta lấy sai số tuyệt đối là giá trị lớn nhất của sai số đo lường.
Relative Error: là tỷ số của Absolute Error chia cho giá trị đo lường được.