Minimalist Forum Reader
Dạ e được biết voz nhiều anh tài cho e mạn phép nhờ xíu ạ. Em là svien đag nghiên cứu về ML, NLP nên em muốn lấy data về các job tuyển dụng trên vietnamwork.
Từ trang này : Tuyển dụng tìm việc làm lương cao mới nhất (https://www.vietnamworks.com/tim-viec-lam/tim-tat-ca-viec-lam)
Em crawl bằng api " search "thì đc các mô tả cơ bản công việc trong list danh sách bằng file json.
Nhưng vấn đề là phần job Decreption và Requirement thì api chỉ trả ra bản tóm tắt.
Vậy nên khi muốn đầy đủ thì em đã vào 1 job bất kì để check thì ko tìm đc một api nào trả ra dữ liệu.
Ở tab network em thử fillter = Doc thì ra đc một dòng có tên giống link. Check thì nó trả html nhưng phần data nó nằm trong phần "<script> __next_ ..." thì em thử lấy dữ liệu thì nó báo ko lấy đc( em dùng chatgpt hỏi)
Nên em nhờ các bác cao nhân cho e xin phương án với ạ. Bác nào đã từng làm việc trên cho em xin hướng đi đúng ạ
Em cảm ơn các bác
Upp tìm thánh nhân ạ.
crawl html rồi phân tích data thôi e
Reactions: Bigbox
API không được thì crawl full html raw rồi dùng các thư viện chuyên dụng kiểu beautifulsoup gì đó để bóc tách cách trường theo xpath/css xem sao. Kiểu tạo 1 con bot truy cập vào trang web như người, rồi parse toàn bộ html, xong đi tìm path chứa thông tin cần lấy thôi (có thể tham khảo thư viện playwright bot). Về cơ bản nếu nó hiển thị trên web thì trong html cũng phải có.
Mỗi tội cách này dễ bị detect và block, nếu web yêu cầu đăng nhập nữa thì khá phức tạp.
Reactions: Bigbox
API không được thì crawl full html raw rồi dùng các thư viện chuyên dụng kiểu beautifulsoup gì đó để bóc tách cách trường theo xpath/css xem sao. Kiểu tạo 1 con bot truy cập vào trang web như người, rồi parse toàn bộ html, xong đi tìm path chứa thông tin cần lấy thôi (có thể tham khảo thư viện playwright bot). Về cơ bản nếu nó hiển thị trên web thì trong html cũng phải có.
Mỗi tội cách này dễ bị detect và block, nếu web yêu cầu đăng nhập nữa thì khá phức tạp.
Dạ chạy 10k post theo cách này khả thi ko ạ. E crawl đc 10k link dẫn đến post.
Dạ chạy 10k post theo cách này khả thi ko ạ. E crawl đc 10k link dẫn đến post.
Tùy cấu hình máy bạn thôi, cơ mà dùng Python thì nhanh không ấy mà. Cứ coi như là có 10k page html, mỗi page khoảng 10,000 dòng đi, bạn dùng đúng thư viện với biết tối ưu thì xử lý bóc tách cx nhanh thôi. Cơ bản khó ở vụ crawl lấy đc html thôi, còn có html rồi xử lý = Python thì dễ. Giống như có 1000 file json, mỗi file 10,000 bản ghi, bóc tách các trường cần thiết, nếu có structure rồi thì nhanh
Reactions: Bigbox
Dạ chạy 10k post theo cách này khả thi ko ạ. E crawl đc 10k link dẫn đến post.
timeout request thư thả chứ ko nó chặn :shame:
Reactions: Bigbox
Dạ e được biết voz nhiều anh tài cho e mạn phép nhờ xíu ạ. Em là svien đag nghiên cứu về ML, NLP nên em muốn lấy data về các job tuyển dụng trên vietnamwork.
Từ trang này : Tuyển dụng tìm việc làm lương cao mới nhất (https://www.vietnamworks.com/tim-viec-lam/tim-tat-ca-viec-lam)
Em crawl bằng api " search "thì đc các mô tả cơ bản công việc trong list danh sách bằng file json.
Nhưng vấn đề là phần job Decreption và Requirement thì api chỉ trả ra bản tóm tắt.
Vậy nên khi muốn đầy đủ thì em đã vào 1 job bất kì để check thì ko tìm đc một api nào trả ra dữ liệu.
Ở tab network em thử fillter = Doc thì ra đc một dòng có tên giống link. Check thì nó trả html nhưng phần data nó nằm trong phần "<script> __next_ ..." thì em thử lấy dữ liệu thì nó báo ko lấy đc( em dùng chatgpt hỏi)
Nên em nhờ các bác cao nhân cho e xin phương án với ạ. Bác nào đã từng làm việc trên cho em xin hướng đi đúng ạ
Em cảm ơn các bác
thím cần desc job thì repo này có crawl data job cho thím về nghịch ML/DS j để làm recommendation nè, mà này crawl topcv với itviec chứ k có source vietnamwork hay linkedin: GitHub - sonbaoharryson/Data_Engineer_JobPulse_Project: This project is built for learning, experimentation, and portfolio showcase purposes. If you are interested in expanding more sources, do not hesitate to contact me (https://github.com/sonbaoharryson/Data_Engineer_JobPulse_Project)
Reactions: boywithlycoris and Bigbox