Script ini merupakan alat scraping otomatis berbasis Python yang digunakan untuk mengambil seluruh data produk dari sebuah toko di Tokopedia.
Data yang diambil meliputi:
- Nama produk
- Harga produk
- Link gambar produk
- Deskripsi produk
- Link halaman produk
Semua data disimpan ke dalam file CSV (
prods.csv).
- Scraping seluruh halaman toko (pagination otomatis)
- Scroll otomatis hingga semua produk termuat (lazy load)
- Ambil data dari setiap produk, termasuk deskripsi lengkap
- Klik tombol “Lihat Selengkapnya” jika deskripsi tersembunyi
- Menyimpan hasil dalam format CSV
- Python 3.x
- Google Chrome
- ChromeDriver (harus cocok dengan versi Google Chrome)
pip install selenium beautifulsoup4
pip install pandas openpyxl
- Mulai dari halaman 1 → 2 → 3 dan seterusnya menggunakan pagination.
- Scroll ke bawah secara bertahap untuk memuat semua produk (lazy loading).
- Mengambil informasi seperti nama produk, harga, gambar, dan link menuju halaman detail.
- Setiap produk dibuka di tab baru untuk mengambil deskripsi lengkap.
- Jika deskripsi disembunyikan, tombol akan diklik terlebih dahulu untuk menampilkan isi penuh.
- Deskripsi produk diambil dan proses dilanjutkan kembali ke halaman utama toko.
- Semua informasi produk dikumpulkan dan disimpan ke dalam list di Python.
- Proses dilanjutkan untuk produk lainnya di halaman yang sama.
- Setelah semua produk di satu halaman selesai, lanjut ke halaman berikutnya.
- Semua data produk dari seluruh halaman disimpan ke file
prods.csv.
- ~10 detik per produk
- 80 produk per halaman
- 31 halaman toko
- Total: 2.480 produk
- Estimasi total waktu scraping: ±7–8 jam