Có công cụ nào tốt ngoài SeleniumRC có thể tìm nạp các trang web bao gồm nội dung được vẽ bởi JavaScript không?


8

Một thiếu sót lớn curllà ngày càng có nhiều wepage có phần nội dung chính được vẽ bởi phản hồi AJAX JavaScript xảy ra sau phản hồi HTTP ban đầu. curlkhông bao giờ chọn lên nội dung sau khi vẽ này.

Vì vậy, để tìm nạp các loại trang web này từ dòng lệnh, tôi đã rút gọn việc viết các tập lệnh trong Ruby, điều khiển SeleniumRC để khởi động một phiên bản Firefox và sau đó trả về HTML nguồn sau khi các cuộc gọi AJAX này hoàn thành.

Sẽ tốt hơn nhiều nếu có một giải pháp dòng lệnh gọn hơn cho loại vấn đề này. Có ai biết về bất kỳ?


Không ai đề xuất bất cứ điều gì khác về Có ai ở đây có kinh nghiệm trong việc tự động hóa một số tác vụ trong các ứng dụng web bằng cách sử dụng curl không? , nhưng câu hỏi đó không đặc biệt hỏi về việc cạo Javascript.
Gilles 'SO- ngừng trở nên xấu xa'

Câu trả lời:


2

Gần đây tôi mới bắt đầu sử dụng WebDriver từ Selenium 2 trong Java. Có một trình điều khiển có tên HtmlUnitDriver hỗ trợ đầy đủ JavaScript nhưng không kích hoạt trình duyệt thực tế.

Nó không phải là một giải pháp nhẹ nhưng nó hoàn thành công việc.

Tôi đã thiết kế mã để chạy từ dòng lệnh và lưu dữ liệu web vào tệp.


2

Bạn đã xem xét Watir?

http://watir.com/

Khi bạn đã thêm gói, bạn có thể chạy nó dưới dạng tệp độc lập hoặc từ irb, từng dòng một include 'watir-webdriver'. Tôi đã thấy nó phản ứng nhanh hơn selenium-webdriver, nhưng không có GUI ghi âm kiểm tra để giúp giải quyết các điều kiện kiểm tra phức tạp.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.