Thu thập dữ liệu Web: Scrapy – Selenium

Data là mỏ vàng, là một loại dầu mỏ mới mà bất cứ doanh nghiệp nào cũng muốn sở hữu. Các ứng dụng như Data Mining, Computer Vision, Natural Language Processing đều cần rất nhiều dữ liệu, trong khi không phải ai cũng sở hữu các ứng dụng với lượng người dùng đủ lớn để tạo ra đủ dữ liệu. Thu thập dữ liệu Web lấp đầy khoảng trống đó để giúp các bạn sở hữu một bộ dữ liệu đủ để xây dựng cơ sở dữ liệu riêng hay phục vụ huấn luyện AI. Khóa học tập trung vào thu thập dữ liệu hiệu năng cao qua 5 dự án thực tế với Scrapy, song song vào đó là Selenium. Khóa học cung cấp các kiến thức sâu sắc về Scrapy như: Spider, Command line, Item, Loader, Pipeline, Middlewares,… Sau khóa học, học viên tự tin để ứng dụng các kiến thức phục vụ dự án cá nhân, ứng tuyển các vị trí tương đương và áp dụng vào công việc

Thời lượng

  • 40 giờ bài giảng
  • 80 giờ tự học

Mục tiêu khóa học

  • Tìm hiểu – phân tích cách thức hoạt động của trang Web để lựa chọn công cụ Scraping phù hợp
  • Thực hiện scrape data sử dụng Selenium
  • Hiểu sâu về Scrapy, ứng dụng Scrapy trong thu thập dữ liệu hiệu năng cao

Kiến thức đạt được sau khóa học

  • Thành thạo Scrapy – Selenium trong task thu thập dữ liệu Web
  • Nắm vững các thành phần trong Scrapy, tối ưu hiệu năng trình thu thập dữ liệu
  • Nắm vững các phương pháp dò tìm cách thức hoạt động của Web, đưa ra phương án thu thập dữ liệu thích hợp
  • Hiểu một số phương pháp bảo mật, chống thu thập dữ liệu và cách lách qua lớp bảo vệ

Kĩ năng trọng điểm

  • Sử dụng Selenium từ cơ bản đến nâng cao: Selector, Fill form, Click, Waits, POM
  • Sử dụng Scrapy từ cơ bản đến nâng cao
  • Phân tích cách thức hoạt động của trang, tìm cách thu thập dữ liệu hiệu quả

Công nghệ được sử dụng

  • Selenium
  • Scrapy
  • Requests – lxml
  • Splash

Đối tượng học viên

  • Nắm được Python cơ bản là điều kiện tiên quyết
  • Mong muốn phát triển bản thân trong lĩnh vực Data Engineering
  • Cần thu thập dữ liệu để thực hiện các task về AI
  • Thu thập dữ liệu làm cơ sở dữ liệu.