DeepSeek AI Dituding Curi Output Gemini untuk Latih Model Buatan Sendiri

3 months ago 64

DeepSeek AI (Foto: deepseek.com)... Selengkapnya

Liputan6.com, Jakarta - Salah satu chatbot AI terkenal dari Tiongkok, yaitu DeepSeek, diduga menggunakan output dari model Gemini milik Google untuk melatih versi terbaru model AI mereka, R1-0528.

Meskipun DeepSeek tidak mengungkapkan secara resmi sumber data pelatihan model tersebut, beberapa peneliti AI mencurigai sebagian data berasal dari keluarga model AI Google Gemini.

Dilansir TechCrunch, Jumat (6/6/2025), Sam Paech, seorang pengembang asal Melbourne mengembangkan evaluasi "kecerdasan emosional" untuk AI, mempublikasikan apa ia klaim sebagai bukti model terbaru DeepSeek dilatih menggunakan output dari Gemini.

Menurut Paech, model R1-0528 menunjukkan preferensi terhadap kata-kata dan ekspresi mirip dengan yang digunakan oleh Gemini 2.5 Pro.

Dalam sebuah postingan di platform X, Paech menyatakan, "Jika Anda bertanya-tanya mengapa DeepSeek R1 baru terdengar sedikit berbeda, saya pikir mereka mungkin telah beralih dari pelatihan pada output sintetis OpenAI ke output sintetis Google Gemini."

DeepSeek Diduga Gunakan Data dari Model AI Lain

Waspada! Serangan Malware Berkedok DeepSeek Ancam Profesional IT. (Liputan6.com/ Yuslianson)... Selengkapnya

Meskipun ini bukan bukti yang meyakinkan, pengembang lain dengan nama samaran, pembuat evaluasi "kebebasan berbicara" untuk AI disebut SpeechMap, mencatat "jejak" dihasilkan model DeepSeek—yakni "pemikiran" dihasilkan model saat bekerja menuju suatu kesimpulan—"terdengar seperti jejak Gemini."

DeepSeek sebelumnya telah dituduh melatih model mereka menggunakan data dari model AI pesaing.

Pada Desember lalu, beberapa pengembang mengamati model V3 DeepSeek sering mengidentifikasi dirinya sebagai ChatGPT, platform chatbot bertenaga AI milik OpenAI, menunjukkan model tersebut mungkin telah dilatih menggunakan log percakapan ChatGPT.

Awal tahun ini, OpenAI mengatakan kepada Financial Times mereka menemukan bukti mengaitkan DeepSeek dengan penggunaan distilasi, sebuah teknik untuk melatih model AI dengan mengekstrak data dari model yang lebih besar dan lebih mampu.

Menurut Bloomberg, Microsoft, mendeteksi sejumlah besar data diekstraksi melalui akun pengembang OpenAI pada akhir 2024—akun-akun diyakini oleh OpenAI terafiliasi dengan DeepSeek.

Masalah Konten AI dan Pelatihan Model di Era Web Terbuka

DeepSeek AI Kena Serangan Siber, Pesaing ChatGPT Batasi Pendaftaran Pengguna Baru! (Liputan6.com/ Yuslianson)... Selengkapnya

Meskipun distilasi bukan praktik yang jarang, ketentuan layanan OpenAI melarang pelanggan menggunakan output model perusahaan untuk membangun AI pesaing.

Perlu dicatat bahwa banyak model AI dapat salah mengidentifikasi dirinya dan cenderung menggunakan kata-kata serta frasa yang sama.

Hal ini disebabkan oleh web terbuka, yang menjadi sumber utama data pelatihan bagi perusahaan AI, kini dipenuhi dengan konten yang dihasilkan AI.

Konten-konten ini sering kali berasal dari "peternakan konten" yang menggunakan AI untuk membuat clickbait, serta bot yang membanjiri platform seperti Reddit dan X.

"Kontaminasi" ini telah membuat sangat sulit untuk sepenuhnya menyaring output AI dari dataset pelatihan.

Meskipun belum ada bukti definitif bahwa DeepSeek menggunakan output dari Gemini untuk melatih model R1-0528 mereka, kesamaan dalam gaya bahasa dan ekspresi antara model tersebut dan Gemini 2.5 Pro telah menimbulkan pertanyaan serius tentang praktik pelatihan data yang digunakan oleh DeepSeek.