Tại sao phải tiến hành thu thập dữ liệu và nghiên cứu thống kê

Có nhiêu tiêu chí để phân loại thông tin. Tuỳ thuộc vào mục đích, ý nghĩa và phạm vi ứng dụng mà người ta có thể lựa chọn những tiêu thức phù hợp. ở đây trình bày một số phân loại thông tin được sử dụng chủ yếu trong nghiên cứu thống kê.

a) Căn cứ tính chất của thông tin:

Có hai loại dữ liệu chủ yếu là dữ liệu định tính và dữ liệu định lượng.

* Dữ liệu định tính là dữ liệu phản ánh tính chất và sự hơn kém về tính chất của đối tượng nghiên cứu. Thí dụ như giới tính của sinh viên (nam, hay nữ); thời gian tự học ở nhà dài hay ngắn (dưới 2 giờ; từ 2 đến 4 giờ; trên 4 giờ).

Dữ liệu định tính được thu thập dễ hơn và người ta thường dùng các thang đo định danh hay thứ bậc để xác định.

* Dữ liệu định lượng là dữ liệu phản ánh mức độ hay mức độ hơn, kém theo một tiêu thức số lượng nào đó của đối tượng nghiên cứu. Thí dụ như độ tuổi của sinh viên, thời gian tự học 1 ngày, 1 tuần.

Dữ liệu định lượng trong nghiên cứu thống kê thường gặp nhiều hơn, dễ áp dụng những phương pháp tính toán, phân tích hơn. Khi xác định các dữ liệu định tính, người ta thường dùng thang đo khoảng cách hay thứ bậc.

Mục đích của cách phân loại này nhằm giúp cho người nghiên cứu xác định trước các phương pháp xử lý, tổng hợp và phân tích cần sử dụng cho từng loại dữ liệu sao cho phù hợp và đáp ứng mục tiêu nghiên cứu đặt ra.

Thí dụ: Các dữ liệu và phương pháp phân tích có thể áp dụng trong nghiên cứu mối liên hệ giữa tự học và kết quả học tập của sinh viên cho ở bảng 1

b) Căn cứ nguồn cung cấp:

Theo nguồn cung cấp thông tin có hai loại dữ liệu: dữ liệu thứ cấp và dữ liệu sơ cấp.

* Dữ liệu thứ cấp là dữ liệu thu thập từ những nguồn có sẵn. Những dữ liệu này đã qua tổng hợp, xử lý công bố hay xuất bản.

Thí dụ: Những dữ liệu về kết quả học tập của sinh viên có thể lấy ở phòng đào tạo hay trợ lý đào tạo của từng khoa là dữ liệu thứ cấp.

Dữ liệu thứ cấp có ưu điểm là thu thập nhanh, rẻ nhưng thiếu chi tiết và đôi khi không đáp ứng đúng yêu cầu nghiên cứu.

Nguồn dữ liệu thứ cấp khá phong phú thường gặp ở các nguồn chủ yếu sau:

- Nội bộ: Các số liệu báo cáo về tình hình sản xuất, tiêu thụ, tài chính, vật tư, nhân sự... của các phòng ban, bộ phận; các số liệu báo cáo từ các cuộc điều tra khảo sát trước đây ở từng đơn vị (doanh nghiệp, cơ quan, ban, ngành...).

- Cơ quan thống kê nhà nước: Các số liệu do các cơ quan thống kê nhà nước (Tổng cục Thống kê, Cục Thống kê, Phòng Thống kê...) cung cấp trong các niên giám thống kê.

- Cơ quan chính phủ: Số liệu do các cơ quan trực thuộc Chính phủ (Bộ, cơ quan ngang bộ, Uỷ ban nhân dân các cấp) công bố hay cung cấp. Các số liệu này thường chi tiết hơn, mang tính chất đặc thù của ngành hay địa phương.

- Sách, báo, tạp chí đã xuất bản. Các số liệu này thường mang tính thời sự và cập nhật cao, mức độ tin cậy tuỳ thuộc vào nguồn số liệu của từng tờ báo hay tạp chí;

- Các tổ chức, hiệp hội, viện nghiên cứu, trường đại học; - Các công ty nghiên cứu và cung cấp thông tin.

* Dữ liệu sơ cấp (thông tin gốc) là dữ liệu không có sẵn, dữ liệu ban đầu thu thập trực tiếp từ đối tượng nghiên cứu.

Thí dụ: Các dữ liệu có liên quan đến việc tự học của sinh viên là các dữ liệu sơ cấp, không có sẵn mà chúng ta muốn có phải điều tra từ sinh viên.

- Dữ liệu sơ cấp có ưu điểm là chi tiết, độ tin cậy cao đối với các tình huống cụ thể.

Song hạn chế của nó là thu thập tốn kém, phụ thuộc vào trình độ chủ quan của người nghiên cứu (nhất là những tình huống dự báo).

- Dữ liệu sơ cấp được thu thập bằng các cuộc điều tra khảo sát khác nhau.

Dựa vào tính chất liên tục hay không liên tục của thu thập dữ liệu sơ cấp, người ta chia thành 2 loại là điều tra thường xuyên và điều tra không thường xuyên.

+ Điều tra thường xuyên là loại điều tra nhằm thu thập các thông tin ban đầu về hiện tượng cần nghiên cứu một cách có hệ thống theo sát với sự biến động của hiện tượng.

Thí dụ: Ghi chép tình hình sinh, tử, chuyển đến, chuyển đi trong theo dõi và quản lý nhân khẩu của một địa phương. Việc theo dõi, ghi chép hàng ngày về số lượng công nhân đi làm, số lượng sản phẩm bán ra, mua vào... trong công ty thương mại (Bách hoá Trâu Quỳ).

Dữ liệu của điều tra thường xuyên làm cơ sở để lập báo cáo thống kê định kỳ.

+ Điều tra không thường xuyên là loại điều tra thống kê nhằm thu thập các dữ liệu ban đầu về hiện tượng nghiên cứu một cách không thường xuyên, không liên tục mà chỉ tiến hành khi có nhu cầu cần nghiên cứu.

Thí dụ: Điều tra dân số, điều tra thị trường, điều tra đất đai nông nghiệp, điều tra lao động và việc làm... .

Dữ liệu của điều tra không thường xuyên phản ánh trạng thái của hiện tượng tại một thời điểm nhất định. Nó có thể được tiến hành định kỳ (3 tháng, 6 tháng, 2 năm, 5 năm, 10 năm) hoặc không theo định kỳ.

Dựa theo phạm vi điều tra thống kê người ta chia thành 2 loại: Điều tra toàn bộ và điều tra không toàn bộ.

+ Điều tra toàn bộ là điều tra thống kê nhằm thu thập dữ liệu ban đầu ở tất cả các đơn vị tổng thể hiện tượng nghiên cứu (còn gọi là tổng điều tra, tổng kiểm kê). Ví dụ tổng điều tra dân số, tổng kiểm kê tài chính cuối năm, báo cáo kết quả học từng môn tất cả sinh viên học kỳ I, II.

Ưu điểm của điều tra toàn bộ là cung cấp dữ liệu khá đầy đủ, phong phú và đảm bảo tin cậy. Các dữ liệu này giúp ta tính toán các chỉ tiêu thể hiện quy mô, cơ cấu, biến động và dự đoán xu hướng biến động của hiện tượng.

Nhược điểm của điều tra toàn bộ là chi phí tốn kém, thời gian kéo dài, không áp dụng cho mọi trường hợp được và mức độ chính xác không đồng đều.

Điều tra không toàn bộ là điều tra thống kê nhằm thu thập dữ liệu ban đầu ở một số đơn vị của tổng thể hiện tượng nghiên cứu. Yêu cầu của điều tra không toàn bộ cần xác định rõ 3 vấn đề:

- Số đơn vị điều tra: Tuỳ theo yêu cầu và điều kiện nghiên cứu, người ta có thể chọn từ tổng thể hiện tượng nghiên cứu một số đơn vị để điều tra là nhiều hay ít.

- Phương pháp chọn số đơn vị mẫu điều tra: Chọn ngẫu nhiên hay phi ngẫu nhiên (lí thuyết xác suất).

- Các đơn vị được chọn ra phải đáp ứng được mục đích và yêu cầu nghiên cứu để kết quả điều tra có thể suy rộng cho tổng thể chung.

Ưu điểm của điều tra không toàn bộ là chi phí ít tốn kém, thời gian nhanh, khả năng thu thập tài liệu cũng tỉ mỉ, đảm bảo chính xác, kịp thời và áp dụng cho những trường hợp nghiên cứu mà hiện tượng đó không thể áp dụng điều tra toàn bộ.

Nhược điểm chủ yếu là tài liệu nếu thu thập từ các đơn vị điều tra được chọn không đáp ứng yêu cầu, mục đích nghiên cứu thì phản ánh không đúng thực tế khách quan. Vì vậy khâu chọn đơn vị điều tra rất quan trọng.

Ví dụ: Điều tra năng suất, sản lượng cây trồng, gia súc, điều tra chi phí, giá thành sản phẩm, điều tra mức sống, điều tra chất lượng sản phẩm.

Tuỳ theo cách chọn đơn vị điều tra mà điều tra không toàn bộ được chia thành 3 loại sau:

- Điều tra chọn mẫu: Loại điều tra chỉ tiến hành thu thập dữ liệu ở một số đơn vị được chọn ra từ tổng thể hiện tượng nghiên cứu. Các đơn vị này phải mang tính chất đại biểu cho tổng thể. Kết quả điều tra chọn mẫu có thể suy ra kết quả chung cho cả tổng thể.

Hiện nay đây là loại điều tra không toàn bộ khoa học nhất được áp dụng nhiều nhất trong nghiên cứu kinh tế - xã hội.

Ví dụ: Điều tra mức sống dân cư, điều tra kinh tế hộ, điều tra năng suất cây trồng... - Điều tra trọng điểm: Loại điều tra chỉ tiến hành điều tra ở bộ phận tập trung lớn nhất của tổng thể hiện tượng nghiên cứu. Kết quả điều tra của bộ phận này không có ý nghĩa suy rộng mà chỉ dùng làm căn cứ để nhận định, đánh giá chung về các đặc điểm, nội dung chủ yếu của tổng thể.

Ví dụ: Điều tra tình hình sản xuất cây ăn quả đặc sản như nhãn lồng, vải thiều thì thực hiện chủ yếu ở vùng Hưng Yên, Lục Ngạn; cà phê, hạt tiêu chủ yếu ở Đắc Lắc.

- Điều tra chuyên đề: Loại điều tra chỉ tiến hành điều tra ở một hoặc một số đơn vị tổng thể điển hình (thường là một đơn vị tiên tiến hay lạc hậu) về một đặc tính nào đó, nghiên cứu tỉ mỉ và nhiều khía cạnh. Kết quả điều tra nhằm rút ra kinh nghiệm và phổ biến kinh nghiệm để có thể vận dụng chung cho các điều kiện tương tự.

Ví dụ: Điều tra báo cáo kết quả học tập, kinh nghiệm học tập, người tốt, việc tốt. 

Nguồn: PGS. TS. Ngô Thị Thuận (Quantri.vn biên tập và hệ thống hóa)

Thu thập dữ liệu là quá trình thu thập và đo lường thông tin về các biến được nhắm mục tiêu trong một hệ thống đã được thiết lập, sau đó cho phép một người trả lời các câu hỏi có liên quan và đánh giá kết quả. Thu thập dữ liệu là một thành phần của nghiên cứu trong tất cả các lĩnh vực nghiên cứu bao gồm khoa học vật lý và xã hội, nhân văn,[2] và trong kinh doanh. Trong khi các phương pháp thay đổi theo kỷ luật, sự nhấn mạnh vào việc đảm bảo bộ sưu tập chính xác và trung thực vẫn giống nhau. Mục tiêu của tất cả việc thu thập dữ liệu là thu thập bằng chứng chất lượng cho phép phân tích dẫn đến việc đưa ra các câu trả lời thuyết phục và đáng tin cậy cho các câu hỏi đã được đặt ra.

Tại sao phải tiến hành thu thập dữ liệu và nghiên cứu thống kê

Ví dụ về thu thập dữ liệu trong khoa học sinh học: Chim cánh cụt Adélie được xác định và được cân mỗi khi chúng đi qua cầu cân tự động trên đường đến hoặc từ biển.[1]

Bất kể lĩnh vực nghiên cứu hoặc ưu tiên xác định dữ liệu (định lượng hoặc định tính), thu thập dữ liệu chính xác là điều cần thiết để duy trì tính toàn vẹn của nghiên cứu. Việc lựa chọn các công cụ thu thập dữ liệu phù hợp (hiện có, sửa đổi hoặc mới được phát triển) và các hướng dẫn được phân định rõ ràng để sử dụng đúng cách của dữ liệu làm giảm khả năng xảy ra lỗi đo lường.

Một quy trình thu thập dữ liệu chính thức là cần thiết vì nó đảm bảo rằng dữ liệu được thu thập đều được xác định và chính xác. Bằng cách này, các quyết định tiếp theo sẽ dựa trên các lập luận thể hiện trong các phát hiện được thực hiện bằng cách sử dụng dữ liệu hợp lệ.[3] Quá trình này cung cấp cả một đường cơ sở để đo lường và trong một số trường hợp nhất định, chỉ ra những gì cần cải thiện.

Có 5 phương pháp thu thập dữ liệu phổ biến; khảo sát kết thúc và các câu đố, khảo sát và câu hỏi kết thúc mở, phỏng vấn 1 đối 1, các nhóm tập trung và quan sát trực tiếp.[4]

Lý do chính để duy trì tính toàn vẹn dữ liệu là để hỗ trợ quan sát các lỗi trong quy trình thu thập dữ liệu. Những lỗi đó có thể được thực hiện có chủ ý (cố ý làm sai lệch) hoặc không cố ý (lỗi ngẫu nhiên hoặc hệ thống).

Có hai cách tiếp cận có thể bảo vệ tính toàn vẹn dữ liệu và bảo đảm giá trị khoa học của kết quả nghiên cứu được phát minh bởi Craddick, Crawford, Rhodes, Redican, Rukenbrod và Laws năm 2003:

  • Đảm bảo chất lượng - tất cả các hành động được thực hiện trước khi thu thập dữ liệu
  • Kiểm soát chất lượng - tất cả các hành động được thực hiện trong và sau khi thu thập dữ liệu

Đảm bảo chất lượng

Trọng tâm chính của đảm bảo chất lượng là phòng ngừa mà chủ yếu là một hoạt động hiệu quả chi phí để bảo vệ tính toàn vẹn của việc thu thập dữ liệu. Tiêu chuẩn hóa giao thức thể hiện tốt nhất hoạt động hiệu quả chi phí này, được phát triển trong một hướng dẫn thủ tục toàn diện và chi tiết để thu thập dữ liệu. Nguy cơ không xác định được các vấn đề và sai sót trong quá trình nghiên cứu rõ ràng là do các hướng dẫn bằng văn bản là kém. Được liệt kê là một số ví dụ về những thất bại như vậy:

  • Sự không chắc chắn về thời gian, phương pháp và nhận dạng của người chịu trách nhiệm
  • Danh sách một phần của các mặt hàng cần phải được thu thập
  • Mô tả mơ hồ về các công cụ thu thập dữ liệu thay vì hướng dẫn từng bước nghiêm ngặt về quản lý kiểm tra
  • Không nhận ra nội dung và chiến lược chính xác để đào tạo và đào tạo lại các nhân viên chịu trách nhiệm thu thập dữ liệu
  • Hướng dẫn không rõ ràng để sử dụng, điều chỉnh và hiệu chỉnh thiết bị thu thập dữ liệu
  • Không có cơ chế được xác định trước để ghi lại các thay đổi trong quy trình xảy ra trong quá trình điều tra

Kiểm soát chất lượng

Vì các hành động kiểm soát chất lượng xảy ra trong hoặc sau khi thu thập dữ liệu, tất cả các chi tiết đều được ghi lại cẩn thận. Cần có một cấu trúc truyền thông được xác định rõ ràng là tiền đề để thiết lập các hệ thống giám sát. Sự không chắc chắn về luồng thông tin không được khuyến nghị vì cấu trúc truyền thông được tổ chức kém dẫn đến giám sát lỏng lẻo và cũng có thể hạn chế các cơ hội phát hiện lỗi. Kiểm soát chất lượng cũng chịu trách nhiệm xác định các hành động cần thiết để sửa chữa các hoạt động thu thập dữ liệu bị lỗi và cũng giảm thiểu các sự cố như vậy trong tương lai. Một nhóm có nhiều khả năng không nhận ra sự cần thiết phải thực hiện các hành động này nếu quy trình của họ được viết một cách mơ hồ và không dựa trên phản hồi hoặc giáo dục.

Vấn đề trong việc thu thập dữ liệu đòi hỏi phải hành động kịp thời bao gồm:

  • Lỗi hệ thống
  • Vi phạm giao thức
  • Gian lận hoặc hành vi sai trái khoa học
  • Lỗi trong các mục dữ liệu cá nhân
  • Lỗi cá nhân của nhân viên hoặc vấn đề hiệu suất tại địa điểm thu thập

  1. ^ Lescroël, A. L.; Ballard, G.; Grémillet, D.; Authier, M.; Ainley, D. G. (2014). Descamps, Sébastien (biên tập). “Antarctic Climate Change: Extreme Events Disrupt Plastic Phenotypic Response in Adélie Penguins”. PLoS ONE. 9 (1): e85291. doi:10.1371/journal.pone.0085291. PMC 3906005. PMID 24489657.
  2. ^ Vuong, Quan-Hoang; La, Viet-Phuong; Vuong, Thu-Trang; Ho, Manh-Toan; Nguyen, Hong-Kong T.; Nguyen, Viet-Ha; Pham, Hiep-Hung; Ho, Manh-Tung (ngày 25 tháng 9 năm 2018). “An open database of productivity in Vietnam's social sciences and humanities for public use”. Scientific Data. 5: 180188. doi:10.1038/sdata.2018.188. PMC 6154282. PMID 30251992.
  3. ^ Data Collection and Analysis By Dr. Roger Sapsford, Victor Jupp ISBN 0-7619-5046-X
  4. ^ Jovancic, Nemanja. “5 Data Collection Methods for Obtaining Quantitative and Qualitative Data”. LeadQuizzes. LeadQuizzes. Truy cập ngày 23 tháng 2 năm 2020.
  5. ^ Northern Illinois University (2005). “Data Collection”. Responsible Conduct in Data Management. Truy cập ngày 8 tháng 6 năm 2019.

Lấy từ “https://vi.wikipedia.org/w/index.php?title=Thu_thập_dữ_liệu&oldid=68057139”