Cách thống ke có bao nhiêu bài báo trên internet năm 2024
Báo cáo Số liệu thống kê về hoạt động thu thập dữ liệu trình bày số liệu thống kê về quá trình thu thập dữ liệu của Google trên trang web của bạn từ trước đến nay. Ví dụ: số liệu về số lượng yêu cầu và thời gian gửi yêu cầu, phản hồi của máy chủ của bạn và mọi vấn đề có thể gặp phải liên quan đến khả năng thu thập dữ liệu. Bạn có thể dùng báo cáo này để xác định xem Google có gặp vấn đề về khả năng phân phát khi thu thập dữ liệu trên trang web của bạn hay không. Show
Báo cáo này dành cho người dùng thành thạo. Nếu trang web của bạn có ít hơn 1.000 trang thì có lẽ bạn không cần dùng báo cáo này và cũng không cần lo lắng về hoạt động thu thập dữ liệu ở cấp độ chi tiết như vậy. Báo cáo này chỉ được cung cấp cho những tài sản ở cấp miền gốc, nghĩa là các Tài sản miền (chẳng hạn như example.com hoặc m.example.com) hoặc tài sản có tiền tố URL ở cấp miền gốc (https://example.com, http://example.com, http://m.example.com). Mở báo cáo Số liệu thống kê về hoạt động thu thập dữ liệu Crawl Budget and the Crawl Stats report - Google Search Console Training Bạn có thể truy cập báo cáo Số liệu thống kê về hoạt động thu thập dữ liệu trong Search Console bằng cách nhấp vào (Cài đặt tài sản) > Số liệu thống kê về hoạt động thu thập dữ liệu.Bắt đầuBạn nên nắm rõ những thông tin sau trước khi dùng báo cáo này:
Giới thiệu về dữ liệu trong báo cáo
Vấn đề đã biết: Báo cáo Số liệu thống kê về hoạt động thu thập dữ liệu hiện có chứa dữ liệu về hầu hết các yêu cầu thu thập dữ liệu, nhưng một số yêu cầu có thể không được tính vì nhiều lý do. Chúng tôi hy vọng sẽ tăng phạm vi báo cáo theo thời gian để cung cấp dữ liệu về hầu hết (và hy vọng là tất cả) yêu cầu. Do đó, có thể bạn nhận thấy những khác biệt nhỏ giữa nhật ký yêu cầu của trang web và các con số được báo cáo tại đây. Khám phá nội dung báo cáoHãy nhấp vào một mục bất kỳ trong bảng để mở chế độ xem chi tiết cho mục đó, bao gồm danh sách URL mẫu. Hãy nhấp vào một URL để xem thông tin chi tiết cho yêu cầu thu thập dữ liệu đối với URL đó. Ví dụ: trong bảng thể hiện những phản hồi được nhóm theo loại, hãy nhấp vào hàng HTML để xem thông tin tổng hợp về tất cả trang HTML được thu thập dữ liệu trên trang web của bạn, cũng như xem một số thông tin chi tiết về những URL này như thời gian thu thập dữ liệu, mã phản hồi, kích thước phản hồi, v.v. Máy chủ lưu trữ và các miền conNếu tài sản của bạn ở cấp miền (example.com, http://example.com, https://m.example.com) và tài sản này chứa ít nhất 2 miền con (chẳng hạn như vi.example.com và de.example.com), thì bạn có thể xem dữ liệu cho miền gốc (trong đó có dữ liệu cho tất cả miền con) hoặc chỉ tập trung vào một miền con duy nhất. Để chỉ xem báo cáo một miền con cụ thể, hãy nhấp vào miền đó trong danh sách Máy chủ lưu trữ trên trang đích của miền gốc. Báo cáo này chỉ hiển thị 20 miền con nhận được lưu lượng truy cập cao nhất trong 90 ngày qua. URL mẫuBạn có thể nhấp vào bất kỳ loại nào trong số các nhóm dữ liệu (phản hồi, loại tệp, mục đích, loại Googlebot) để xem danh sách URL mẫu của loại đó. Danh sách URL mẫu là chưa đầy đủ mà chỉ nêu một số ví dụ điển hình. Nếu bạn không thấy một URL trong danh sách URL mẫu, thì điều đó không có nghĩa là chúng tôi không yêu cầu URL đó. Số lượng ví dụ có thể được đánh giá theo ngày, nên bạn có thể thấy rằng một số loại yêu cầu có nhiều ví dụ hơn các loại khác. Theo thời gian, số lượng ví dụ cho các loại yêu cầu sẽ trở nên cân bằng. Tổng số yêu cầu thu thập dữ liệuĐây là tổng số yêu cầu thu thập dữ liệu đối với các URL trên trang web của bạn, bất kể yêu cầu có thành công hay không. Trong đó bao gồm cả các yêu cầu đối với tài nguyên do trang sử dụng nếu tài nguyên đó nằm trên trang web của bạn. Báo cáo này không tính những yêu cầu đối với tài nguyên được lưu trữ bên ngoài trang web của bạn. Các yêu cầu trùng lặp cho cùng một URL sẽ được coi là các yêu cầu riêng biệt. Nếu tệp robots.txt của bạn , thì hệ thống sẽ tính số lượt tìm nạp có khả năng xảy ra. Những lượt tìm nạp sau đây được tính vào số lượng yêu cầu không thành công:
Tổng kích thước tải xuốngĐây là tổng số byte được tải xuống từ trang web của bạn trong quá trình thu thập dữ liệu và trong một khoảng thời gian nhất định. Nếu một tài nguyên trên trang mà Google lưu vào bộ nhớ đệm được sử dụng trên nhiều trang, thì hệ thống chỉ yêu cầu tài nguyên đó vào lần đầu tiên (khi Google lưu tài nguyên vào bộ nhớ đệm). Thời gian phản hồi trung bìnhĐây là thời gian phản hồi trung bình cho tất cả tài nguyên được tìm nạp qua trang web của bạn trong một khoảng thời gian nhất định. Mỗi tài nguyên liên kết với một trang sẽ được tính là một phản hồi riêng biệt. Trạng thái của máy chủ lưu trữTrạng thái của máy chủ lưu trữ cho biết liệu Google có gặp phải vấn đề về khả năng lập chỉ mục khi cố gắng thu thập dữ liệu trên trang web của bạn hay không. Trạng thái của máy chủ lưu trữ có thể là một trong những giá trị sau: Kết quả mong đợi Lý tưởng nhất là máy chủ lưu trữ của bạn có trạng thái màu Xanh lục. Nếu trạng thái khả năng tiếp cận dữ liệu có màu đỏ, hãy nhấp để xem thông tin chi tiết về việc có tệp robots.txt hay không, hoạt động phân giải của DNS và tình trạng kết nối của máy chủ lưu trữ. Thông tin chi tiết về trạng thái của máy chủ lưu trữTrạng thái khả năng thu thập dữ liệu qua máy chủ lưu trữ được đánh giá theo những danh mục sau. Lỗi lớn thuộc mọi danh mục đều có thể gây ra tình trạng thu thập dữ liệu kém hơn. Bạn có thể nhấp vào một danh mục trong báo cáo để xem thêm thông tin chi tiết. Đối với mỗi danh mục, bạn sẽ thấy một biểu đồ về tình trạng thu thập dữ liệu cho khoảng thời gian tương ứng. Biểu đồ này có một đường nét đứt màu đỏ; nếu chỉ số nằm trên đường nét đứt của danh mục này (ví dụ: nếu DNS không phân giải được hơn 5% yêu cầu vào một ngày nhất định), thì đây được coi là một vấn đề trong danh mục đó và trạng thái tương ứng sẽ phản ánh thời gian gần đây nhất xảy ra vấn đề này.
Tìm hiểu thêm về tình trạng có/không có tệp robots.txt Nội dung sau đây mô tả chi tiết hơn về cách Google kiểm tra (và phụ thuộc vào) tệp robots.txt khi thu thập dữ liệu trên trang web của bạn. Trang web của bạn không bắt buộc phải có tệp robots.txt, nhưng phải trả về phản hồi thành công (theo định nghĩa dưới đây) khi Google yêu cầu cung cấp tệp này. Nếu không, Google có thể dừng thu thập dữ liệu trên trang web của bạn.
Sau đây là cách Google yêu cầu và sử dụng tệp robots.txt khi thu thập dữ liệu một trang web:
Mọi lượt thu thập dữ liệu bị bỏ qua do không có tệp robots.txt đều được tính trong tổng số lượt thu thập dữ liệu. Tuy nhiên, chúng tôi không thực sự thực hiện những lần thu thập dữ liệu này. Do đó, một số báo cáo theo nhóm (lượt thu thập dữ liệu theo mục đích, lượt thu thập dữ liệu theo phản hồi, v.v.) sẽ không liệt kê những lần thu thập dữ liệu này, hoặc có thể vẫn liệt kê nhưng cung cấp ít thông tin. Phản hồi cho yêu cầu thu thập dữ liệuBảng này hiển thị các phản hồi mà Google nhận được khi thu thập dữ liệu trên trang web của bạn, phân theo loại phản hồi và hiển thị dưới dạng tỷ lệ phần trăm trên tất cả phản hồi cho các yêu cầu thu thập dữ liệu. Dữ liệu này dựa trên tổng số yêu cầu, không phải theo URL. Vì vậy, nếu Google yêu cầu một URL hai lần và nhận được Lỗi máy chủ (500) vào lần đầu tiên và nhận được phản hồi OK (200) vào lần thứ hai, thì tỷ lệ phản hồi sẽ là 50% Lỗi máy chủ và 50% OK. Kết quả mong đợi Hầu hết phản hồi sẽ là phản hồi 200 hoặc các loại phản hồi "Tốt" khác, trừ khi bạn đang sắp xếp lại hoặc di chuyển trang web. Hãy xem danh sách dưới đây để tìm hiểu cách xử lý các mã phản hồi khác. Dưới đây là một số mã phản hồi thường gặp và cách xử lý: Các mã phản hồi thể hiện tình trạng tốtNhững trang có tình trạng sau đây đều ổn và không gây ra vấn đề nào.
Các mã phản hồi có thể đang thể hiện tình trạng tốtNhững trang có tình trạng sau đây có lẽ vẫn không sao, nhưng bạn có thể kiểm tra để chắc chắn rằng tình trạng này đúng với ý định của bạn.
Các mã phản hồi thể hiện tình trạng không tốtBạn nên sửa những trang trả về các lỗi sau đây để cải thiện quá trình thu thập dữ liệu.
Các loại tệp được thu thập dữ liệuĐây là những loại tệp được trả về theo yêu cầu. Giá trị phần trăm của mỗi loại là tỷ lệ phần trăm phản hồi đối với loại đó, chứ không phải tỷ lệ phần trăm số byte thuộc loại đó được truy xuất. Loại tệp có thể mang những giá trị sau:
Kết quả mong đợi Nếu bạn đang gặp vấn đề về khả năng tiếp cận dữ liệu hoặc tốc độ phản hồi chậm, hãy tham khảo bảng này để biết loại tài nguyên mà Google đang thu thập dữ liệu và tại sao quá trình thu thập dữ liệu của bạn bị chậm. Có phải Google đang yêu cầu truy xuất nhiều hình ảnh nhỏ vốn nên bị chặn không? Có phải Google đang yêu cầu truy xuất những tài nguyên được lưu trữ trên một trang web khác có tốc độ phản hồi chậm không? Hãy nhấp vào từng loại tệp để xem biểu đồ về thời gian phản hồi trung bình theo ngày và về số lượng yêu cầu theo ngày, để xem liệu tình trạng tăng đột biến số lượng phản hồi bị chậm thuộc loại đó có tương quan với tình trạng tăng đột biến tần suất xảy ra tình trạng tốc độ chậm hoặc không thể truy cập dữ liệu nói chung hay không. Mục đích thu thập dữ liệu
Nếu bạn thường xuyên thay đổi những trang có tần suất thu thập dữ liệu còn thấp, hãy đưa những trang đó vào sơ đồ trang web. Đối với những trang ít được cập nhật hơn, có thể bạn sẽ phải yêu cầu thu thập lại dữ liệu. Nếu gần đây bạn gửi sơ đồ trang web hoặc thêm rất nhiều nội dung mới, thì bạn sẽ thấy biến động trong quá trình thu thập dữ liệu nhằm mục đích khám phá trên trang của bạn. Loại GooglebotLoại tác nhân người dùng được dùng để đưa ra yêu cầu thu thập dữ liệu. Google có một số loại tác nhân người dùng thu thập dữ liệu cho nhiều mục đích và thể hiện nhiều loại hành vi. Loại Googlebot có thể mang những giá trị sau:
Nếu tốc độ thu thập dữ liệu trên trang của bạn tăng đột biến, hãy kiểm tra loại tác nhân người dùng. Nếu dường như mức tăng đột biến này là do trình thu thập dữ liệu AdsBot, hãy xem bài viết . Khắc phục sự cốTốc độ thu thập dữ liệu quá caoGooglebot có thuật toán để không tải trang web của bạn quá mức trong quá trình thu thập dữ liệu. Tuy nhiên, nếu vì lý do nào đó mà bạn cần giới hạn tốc độ thu thập dữ liệu, hãy tìm hiểu cách làm tại đây. Tại sao tốc độ thu thập dữ liệu trên trang của tôi tăng đột biến?Nếu bạn đăng nhiều thông tin mới hoặc trang web của bạn có những thông tin vô cùng hữu ích, thì có thể Google sẽ thu thập dữ liệu thường xuyên hơn một chút so với mong muốn của bạn. Ví dụ:
Nếu Google thu thập dữ liệu trang web của bạn thường xuyên đến mức khiến trang web gặp sự cố về khả năng truy cập, thì sau đây là cách bảo vệ trang web:
Tốc độ thu thập dữ liệu có vẻ quá thấpBạn không thể yêu cầu Google tăng tốc độ thu thập dữ liệu. Tuy nhiên, bạn có thể tìm hiểu thêm về cách quản lý hoạt động thu thập dữ liệu cho những trang web rất lớn hoặc thường xuyên được cập nhật. Đối với các trang web quy mô nhỏ hoặc trung bình, nếu bạn nhận thấy Google chưa thu thập hết dữ liệu trên trang web của mình, hãy thử cập nhật sơ đồ trang web và đảm bảo bạn không chặn trang nào. Tại sao tốc độ thu thập dữ liệu trên trang của tôi lại giảm?Nhìn chung, tốc độ thu thập dữ liệu của Google của bạn sẽ tương đối ổn định trong khoảng thời gian một hay hai tuần; nếu bạn thấy sự sụt giảm đột ngột, sau đây là một số nguyên nhân có thể:
Tổng số lượt thu thập dữ liệu trong báo cáo cao hơn nhiều so với tổng số trong nhật ký máy chủ của trang webNếu tổng số lượt thu thập dữ liệu trong báo cáo này cao hơn nhiều so với số yêu cầu thu thập dữ liệu của Google trong nhật ký máy chủ, thì có lẽ là vì Google không thu thập được dữ liệu trên trang web của bạn do Khi điều này xảy ra, Google sẽ vẫn tính những lần thu thập dữ liệu mà đáng lẽ chúng tôi có thể thực hiện nếu có tệp robots.txt, nhưng trên thực tế thì chúng tôi không thực hiện những lần thu thập dữ liệu đó. Hãy kiểm tra để xác nhận xem đây có phải là vấn đề không. |