Fine tuning atau penyesuaian model kecerdasan buatan telah menjadi topik penting dalam pengembangan model berbasis AI. Namun, proses ini tidak hanya bergantung pada data atau model, tetapi juga sangat dipengaruhi oleh teknologi dan sumber daya yang digunakan, seperti GPU, teknik tuning, serta pengolahan dataset. Artikel ini bertujuan untuk memberikan gambaran menyeluruh mengenai estimasi waktu, biaya, dan langkah-langkah yang diperlukan untuk fine tuning model besar seperti GPT-4 (secara hipotetis) dibandingkan dengan model yang lebih kecil seperti DeepSeek.

Fine Tuning Model Besar (GPT-4 dengan LoRA) pada Dataset 500 MB
Asumsi Dasar
Proses fine tuning pada model besar seperti GPT-4 menggunakan dataset sebesar 500 MB memerlukan pendekatan yang berbeda karena kompleksitasnya. Beberapa asumsi penting meliputi:
-
Ukuran Dataset: Dataset sebesar 500 MB mencakup data mentah yang, setelah diolah, dapat menghasilkan ratusan juta token. Konversi kasar menunjukkan bahwa 1 token setara dengan 4 karakter. Dalam praktiknya, data ini diproses untuk menyesuaikan kebutuhan fine tuning, menghasilkan jumlah token efektif yang lebih kecil.
-
Teknik Tuning: Teknik parameter-efficient seperti LoRA (Low-Rank Adaptation) digunakan untuk mengurangi beban pemrosesan. LoRA memungkinkan hanya sebagian kecil parameter model yang diperbarui, menjadikannya lebih ringan dibandingkan dengan full fine tuning.
-
Jumlah Epoch: Dalam estimasi ini diasumsikan proses berlangsung selama 3 epoch. Epoch adalah jumlah kali seluruh dataset digunakan dalam proses pelatihan model.
Estimasi Langkah dan Waktu
Fine tuning melibatkan banyak langkah, dari pembagian dataset hingga validasi model. Untuk dataset ini, diasumsikan langkah-langkah berikut:
-
Langkah Pelatihan: Dataset yang sudah diproses menghasilkan N token. Dengan pengaturan batch dan gradient accumulation, diasumsikan ada sekitar 2.500 langkah per epoch. Total langkah untuk 3 epoch adalah:
2.500×3=7.500 langkah2.500 \times 3 = 7.500 \, \text{langkah}
-
Waktu per Langkah: Waktu per langkah dapat sangat bervariasi tergantung pada optimasi yang digunakan. Perkiraan:
- Optimis: 0,5–1 detik per langkah.
- Realistis: 10–15 detik per langkah untuk model sebesar GPT-4, meskipun LoRA mempercepat proses.
-
Total Waktu Pelatihan: Jika setiap langkah rata-rata memakan waktu 10 detik:
2.500 langkah×10 detik/langkah=25.000 detik/epoch≈7 jam/epoch2.500 \, \text{langkah} \times 10 \, \text{detik/langkah} = 25.000 \, \text{detik/epoch} \approx 7 \, \text{jam/epoch}
Untuk 3 epoch, total waktu adalah 21 jam. Namun, karena faktor tambahan seperti loading data dan validasi, total waktu pelatihan diperkirakan sekitar 30–40 jam.
Estimasi Biaya
Dengan asumsi waktu pelatihan total sekitar 36 jam dan tarif sewa GPU RTX 4090 Rp 10.000 per jam:
36 jam×Rp10.000/jam=Rp360.00036 \, \text{jam} \times Rp 10.000/\text{jam} = Rp 360.000
Catatan Penting
- Estimasi ini bersifat hipotetis karena OpenAI belum membuka akses fine tuning untuk GPT-4 secara publik.
- Angka ini dipengaruhi oleh efisiensi infrastruktur, kualitas dataset, dan teknik fine tuning yang digunakan.
Fine Tuning Model DeepSeek
Konteks Model
DeepSeek merujuk pada model transformer yang lebih kecil dibandingkan GPT-4, dengan ukuran hanya puluhan hingga ratusan juta parameter. Model ini dirancang untuk tugas-tugas spesifik seperti pencarian semantik. Karena ukurannya lebih kecil, fine tuning pada model ini memerlukan lebih sedikit sumber daya.
Estimasi Langkah dan Waktu
Proses fine tuning untuk dataset 500 MB pada DeepSeek dapat lebih cepat dengan langkah berikut:
-
Jumlah Langkah: Sama seperti GPT-4, diasumsikan 2.500 langkah per epoch dengan 3 epoch total:
2.500×3=7.500 langkah2.500 \times 3 = 7.500 \, \text{langkah}
-
Waktu per Langkah: Karena model ini lebih kecil, waktu per langkah jauh lebih singkat:
- Perkiraan: 1–2 detik per langkah.
-
Total Waktu Pelatihan: Dengan rata-rata waktu 1,5 detik per langkah:
7.500 langkah×1,5 detik/langkah=11.250 detik≈3 jam/epoch7.500 \, \text{langkah} \times 1,5 \, \text{detik/langkah} = 11.250 \, \text{detik} \approx 3 \, \text{jam/epoch}
Untuk 3 epoch, total waktu adalah 3 hingga 6 jam.
Estimasi Biaya
Jika total waktu pelatihan adalah 6 jam:
6 jam×Rp10.000/jam=Rp60.0006 \, \text{jam} \times Rp 10.000/\text{jam} = Rp 60.000
Untuk waktu lebih singkat (3 jam), biayanya hanya Rp 30.000.
Perbandingan Sumber Daya
Tabel berikut merangkum perbandingan estimasi waktu dan biaya antara fine tuning GPT-4 dan DeepSeek:
| Aspek | GPT-4 (LoRA) | DeepSeek |
|---|---|---|
| Waktu Pelatihan | 30–40 jam | 3–6 jam |
| Biaya (Rp 10.000/jam) | Rp 360.000 | Rp 30.000–Rp 60.000 |
Kesimpulan
-
Model Besar (GPT-4): Fine tuning model besar seperti GPT-4, bahkan dengan teknik efisien seperti LoRA, tetap sangat intensif dari segi waktu dan biaya. Proses ini memerlukan 30–40 jam pelatihan dengan estimasi biaya sekitar Rp 360.000.
-
Model DeepSeek: Model yang lebih kecil seperti DeepSeek lebih hemat sumber daya. Dengan waktu pelatihan hanya 3–6 jam, biaya yang diperlukan berkisar Rp 30.000–Rp 60.000.
Faktor-Faktor yang Mempengaruhi Estimasi
-
Kualitas Dataset: Dataset yang telah diproses dengan baik menghasilkan jumlah token yang lebih optimal untuk pelatihan, mempengaruhi waktu dan efisiensi.
-
Teknik Fine Tuning: LoRA mengurangi beban pemrosesan dengan hanya memperbarui sebagian parameter, tetapi tetap memerlukan waktu lebih lama untuk model besar.
-
Infrastruktur dan Kode: Optimalisasi kode, efisiensi pipeline, serta spesifikasi perangkat keras dapat memangkas waktu pelatihan.
-
Kompleksitas Model: Model besar seperti GPT-4 lebih lambat dibandingkan dengan model ringan seperti DeepSeek karena jumlah parameter yang jauh lebih banyak.
Artikel ini memberikan gambaran kasar mengenai sumber daya yang diperlukan untuk fine tuning dua jenis model berbeda. Bagi pengembang, pemilihan model yang sesuai dengan kebutuhan dan anggaran sangat penting untuk memastikan efisiensi biaya dan waktu. Model besar menawarkan performa tinggi tetapi memerlukan investasi signifikan, sedangkan model ringan lebih ekonomis untuk tugas-tugas spesifik.