Perbandingan Sumber Daya untuk Fine Tuning Model GPT-4 dan Model Lebih Ringan

Fine tuning atau penyesuaian model kecerdasan buatan telah menjadi topik penting dalam pengembangan model berbasis AI. Namun, proses ini tidak hanya bergantung pada data atau model, tetapi juga sangat dipengaruhi oleh teknologi dan sumber daya yang digunakan, seperti GPU, teknik tuning, serta pengolahan dataset. Artikel ini bertujuan untuk memberikan gambaran menyeluruh mengenai estimasi waktu, biaya, dan langkah-langkah yang diperlukan untuk fine tuning model besar seperti GPT-4 (secara hipotetis) dibandingkan dengan model yang lebih kecil seperti DeepSeek.

Fine Tuning Model Besar (GPT-4 dengan LoRA) pada Dataset 500 MB

Asumsi Dasar

Proses fine tuning pada model besar seperti GPT-4 menggunakan dataset sebesar 500 MB memerlukan pendekatan yang berbeda karena kompleksitasnya. Beberapa asumsi penting meliputi:

Ukuran Dataset: Dataset sebesar 500 MB mencakup data mentah yang, setelah diolah, dapat menghasilkan ratusan juta token. Konversi kasar menunjukkan bahwa 1 token setara dengan 4 karakter. Dalam praktiknya, data ini diproses untuk menyesuaikan kebutuhan fine tuning, menghasilkan jumlah token efektif yang lebih kecil.
Teknik Tuning: Teknik parameter-efficient seperti LoRA (Low-Rank Adaptation) digunakan untuk mengurangi beban pemrosesan. LoRA memungkinkan hanya sebagian kecil parameter model yang diperbarui, menjadikannya lebih ringan dibandingkan dengan full fine tuning.
Jumlah Epoch: Dalam estimasi ini diasumsikan proses berlangsung selama 3 epoch. Epoch adalah jumlah kali seluruh dataset digunakan dalam proses pelatihan model.

Estimasi Langkah dan Waktu

Fine tuning melibatkan banyak langkah, dari pembagian dataset hingga validasi model. Untuk dataset ini, diasumsikan langkah-langkah berikut:

Langkah Pelatihan: Dataset yang sudah diproses menghasilkan N token. Dengan pengaturan batch dan gradient accumulation, diasumsikan ada sekitar 2.500 langkah per epoch. Total langkah untuk 3 epoch adalah:

$2.500 \times 3 = 7.500 \, \text{langkah}$
Waktu per Langkah: Waktu per langkah dapat sangat bervariasi tergantung pada optimasi yang digunakan. Perkiraan:
- Optimis: 0,5–1 detik per langkah.
- Realistis: 10–15 detik per langkah untuk model sebesar GPT-4, meskipun LoRA mempercepat proses.
Total Waktu Pelatihan: Jika setiap langkah rata-rata memakan waktu 10 detik:

$\, \text{langkah} \times 10 \, \text{detik/langkah} = 25.000 \, \text{detik/epoch} \approx 7 \, \text{jam/epoch}$

Untuk 3 epoch, total waktu adalah 21 jam. Namun, karena faktor tambahan seperti loading data dan validasi, total waktu pelatihan diperkirakan sekitar 30–40 jam.

Estimasi Biaya

Dengan asumsi waktu pelatihan total sekitar 36 jam dan tarif sewa GPU RTX 4090 Rp 10.000 per jam:

$\, \text{jam} \times Rp 10.000/\text{jam} = Rp 360.000$

Catatan Penting

Estimasi ini bersifat hipotetis karena OpenAI belum membuka akses fine tuning untuk GPT-4 secara publik.
Angka ini dipengaruhi oleh efisiensi infrastruktur, kualitas dataset, dan teknik fine tuning yang digunakan.

Fine Tuning Model DeepSeek

Konteks Model

DeepSeek merujuk pada model transformer yang lebih kecil dibandingkan GPT-4, dengan ukuran hanya puluhan hingga ratusan juta parameter. Model ini dirancang untuk tugas-tugas spesifik seperti pencarian semantik. Karena ukurannya lebih kecil, fine tuning pada model ini memerlukan lebih sedikit sumber daya.

Estimasi Langkah dan Waktu

Proses fine tuning untuk dataset 500 MB pada DeepSeek dapat lebih cepat dengan langkah berikut:

Jumlah Langkah: Sama seperti GPT-4, diasumsikan 2.500 langkah per epoch dengan 3 epoch total:

$2.500 \times 3 = 7.500 \, \text{langkah}$
Waktu per Langkah: Karena model ini lebih kecil, waktu per langkah jauh lebih singkat:
- Perkiraan: 1–2 detik per langkah.
Total Waktu Pelatihan: Dengan rata-rata waktu 1,5 detik per langkah:

$\, \text{langkah} \times 1,5 \, \text{detik/langkah} = 11.250 \, \text{detik} \approx 3 \, \text{jam/epoch}$

Untuk 3 epoch, total waktu adalah 3 hingga 6 jam.

Estimasi Biaya

Jika total waktu pelatihan adalah 6 jam:

$\, \text{jam} \times Rp 10.000/\text{jam} = Rp 60.000$

Untuk waktu lebih singkat (3 jam), biayanya hanya Rp 30.000.