DeepSeek: Sebuah Perubahan Paradigma, Apa Artinya Bagi Kemanusiaan

Deepseek China SecurityFILE - Halaman aplikasi smartphone DeepSeek terlihat di layar smartphone di Beijing, 28 Jan 2025. (Foto AP/Andy Wong, File)Hak cipta 2025 The Associated Press. Semua hak dilindungiUndang-undangLautan yang merupakan DeepSeek tidak terlihat sebelum 20 Jan 2025. Kemudian Blue Whale muncul ke perhatian seluruh dunia pada 20 Jan. Tubuh slam itu mengirimkan gelombang kejut di seluruh dunia.

Pelepasan DeepSeek-R1 segera menjatuhkan kapitalisasi pasar beberapa perusahaan perangkat keras dan perangkat lunak yang didorong oleh apa yang dipikirkan investor sebagai keunggulan Amerika. Menahan chip terbaru dan Kekayaan Intelektual AI dari China dianggap sebagai strategi yang harus diikuti. Kecuali itu salah. Begitulah cara terjadinya lompatan teknologi. Terutama untuk kekuatan manufaktur dan desain seperti China. Ironisnya, model terbaru dari DeepSeek dapat digunakan secara gratis. Mereka bahkan menjalankannya di server mereka secara gratis.

Pengembangan model bahasa besar yang umum melalui penskalaan parameter dan data pelatihan telah menghasilkan banyak terobosan. Peluncuran ChatGPT-3.5 dan 4.0 pada tahun 2022-23 membuka potensi umum AI kepada publik. Pendekatan ini juga meningkatkan biaya secara besar-besaran karena permintaan komputasi dan data mendorong prosesor yang lebih besar dan lebih baik. Pada akhir 2023 dan 2024, bahkan sekarang, pembangunan pusat data yang mengkonsumsi daya sangat besar dianggap sebagai satu-satunya cara untuk meningkatkan kinerja model. Membatasi akses ke komputasi dan chip terbaru dianggap dapat membatasi China sebagai sumber model-model kuat ini. Dengan DeepSeek, paradigma tersebut telah berubah.

Perusahaan seperti Nvidia yang sahamnya sangat terpengaruh oleh pengumuman tersebut telah pulih dan berkembang. Pelajaran tersebut hilang di pasar global. Yang terburuk mungkin belum datang karena perusahaan-perusahaan yang didorong oleh kemajuan AI dan penggunaannya akan dijatuhkan oleh kombinasi metode baru dan pengurangan kebutuhan komputasi untuk melakukan pelatihan serta inferensi.

Biaya yang terbenam dan biaya perpindahan dengan pengikut ekonomi yang kuat mereka mencegah pandangan jangka panjang dan mengunci AI Amerika di jalur mereka. Keberhasilan melahirkan kepuasan diri dan keterikatan pada model yang menghasilkan keberhasilan. Dalam AI, bidang yang berkembang pesat, terjebak pada algoritma, proses, dan praktik adalah mematikan. DeepSeek menunjukkan bahwa hanya menumpuk komputasi dan data tidak membuat kemajuan eksponensial. Ini adalah pelajaran dari banyak bidang, yang sering diabaikan dengan sebuah dictum yang digunakan berlebihan tetapi salah "Kali ini berbeda." Inovasi mengikuti pola yang sudah dikenal; perlahan kemudian cepat.

LEBIH UNTUK ANDA## Efisiensi

Biaya pelatihan dan menjalankan DeepSeek jauh lebih rendah dibandingkan dengan model lain. Rasio dalam presentasi terbaru menunjukkan $6 juta untuk DeepSeek dibandingkan $600 juta untuk Llama (, model sumber terbuka dari Meta). Satu persen dari biaya. Biaya untuk model lain, termasuk ChatGPT, bahkan lebih tinggi. Penghematan biaya ini merupakan hasil dari penerapan penemuan DeepSeek sendiri dalam reinforcement learning dan pelatihan menggunakan distillation. Selain itu, model ini sangat efisien dalam menghasilkan bahasa Mandarin. Hingga tiga bulan yang lalu, sejumlah besar perusahaan Cina telah bergabung dengan revolusi AI dengan berlangganan DeepSeek. Sebagai juara nasional, kebijakan industri pemerintah mendukung DeepSeek.

RL sebagai metode pelatihan ditemukan di Universitas Amherst. Penerima penghargaan ACM Turing 2024, Andrew Barto dan Richard Sutton adalah penemu teknik pembelajaran penguatan klasik. Untuk LLM dan model besar lainnya, pendekatan semacam itu termasuk dalam pembelajaran terawasi. Model ini disempurnakan oleh umpan balik, secara klasik dari manusia, yang disebut RLHF (Reinforcement Learning with Human Feedback). Ini disebut penyempurnaan halus terawasi. Manusia adalah pengawas. Makalah yang dirilis oleh pencipta DeepSeek R1 membahas secara rinci tentang cara mereka memodifikasi RL.

Sesuatu yang melibatkan manusia dalam loop pada skala besar membutuhkan banyak uang. Menghapus manusia dalam loop membuat pelatihan menjadi lebih murah. Sebuah versi model digunakan untuk menyempurnakan model lainnya. Dengan kata lain, satu model berfungsi sebagai pengawas dan yang lainnya dilatih. Kedatangan perusahaan-perusahaan baru dengan model seperti MiniMax-M1 semakin menegaskan pergeseran ini. Teknik-teknik semacam itu akan mengalahkan model-model yang dibuat menggunakan skala konvensional.

DeepSeek-R1 efektif melalui evolusinya yang memanfaatkan berbagai strategi. Kombinasi metode baru berdasarkan teknik yang ada membuat pelatihan dan inferensi efisien dalam waktu dan sumber daya. Detail lebih lanjut dapat ditemukan dalam artikel ini. Singkatnya, semua aspek dari penciptaan dan pengoperasian model bahasa besar diubah, ditingkatkan, atau dikerjakan ulang untuk efisiensi biaya dan waktu.

MiniMax-M1

MiniMax-M1 mengklaim telah memotong biaya pelatihan DeepSeek-R1 sebesar 90%. Mereka melatih model mereka dengan biaya $500K. Bandingkan ini dengan biaya $6M untuk DeepSeek-R1 dan $600M untuk LLaMa. Ada keraguan yang dilontarkan terhadap angka-angka yang dipublikasikan oleh baik DeepSeek maupun MiniMax.

Efisiensi telah diperoleh melalui penyempurnaan lebih lanjut RL dengan apa yang disebut perhatian kilat. Ini terutama untuk masalah deterministik seperti penalaran matematis dan logis serta masalah konteks panjang seperti pemrograman. Minimax juga tersedia melalui HuggingFace, penyedia AI sumber terbuka.

Privasi

Ada kekhawatiran bahwa DeepSeek sedang mengumpulkan data pribadi untuk kepentingannya sendiri. Fenomena ini banyak terjadi di dunia AI dan media sosial secara umum. Yang membuat berbagi data pribadi dengan DeepSeek atau perusahaan swasta lainnya adalah fakta bahwa data tersebut akan digunakan untuk menyempurnakan model. Dalam kasus DeepSeek atau perusahaan berbasis China lainnya, ada ketakutan bahwa data tersebut akan sampai ke pemerintah China. Perusahaan AI swasta, bahkan yang berada di Amerika Serikat, melakukan hal yang sama, kecuali mereka akan membagikan data tersebut dengan pemerintah AS jika mereka dipaksa oleh hukum. Pada titik ini, skenario semacam itu lebih mengganggu. Amandemen keempat akan terabaikan, jika pemerintah dapat mencari tidak hanya tubuh dan rumah kita, tetapi juga pikiran kita tanpa surat perintah.

Untuk membaca lebih lanjut tentang risiko DeepSeek, baca analisis ini dari Hidden Layer. Karena model bisnis Hidden Layer didasarkan pada jenis analisis ini, sebaiknya perhatikan dengan cermat analisis tersebut dan bandingkan dengan pekerjaan mereka pada model-model terbuka lainnya.

Model AI Sumber Terbuka

Open Source International (OSI) memiliki definisi Open Source AI. Saat ini adalah versi 1.0, yang dapat direvisi. Seperti definisi Open Source untuk perangkat lunak, ini memungkinkan pengguna untuk menggunakan, mengamati, memodifikasi, dan mendistribusikan tanpa batasan. Model AI sangat bergantung pada data pelatihannya. Penggunaan AI melibatkan inferensi, yang mengkonsumsi sumber daya. Pengeluaran untuk pelatihan terpisah dari biaya inferensi. Dalam definisi klasik perangkat lunak sumber terbuka, kode sumber tersedia untuk pengguna mana pun untuk digunakan, diamati, dimodifikasi, dan didistribusikan. Dalam interpretasi ketat dari open-source AI, kode sumber harus mencakup data yang digunakan untuk melatih model. Namun, ini mungkin tidak praktis, dan bukan bagian dari definisi OSI tentang Open Source AI.

Ini sangat berbeda dari panduan OSI untuk perangkat lunak sumber terbuka. Perbedaan lainnya adalah keteramatan dari bobot model dan hiperparameter. Selama fase pembelajaran, bobot model disempurnakan. Bobot model mewujudkan model dalam bentuknya saat ini, mengkristalisasi semua pelatihan yang telah dilalui model. Hiperparameter mengontrol konfigurasi awal dari pengaturan pembelajaran. Dalam model terbuka, bobot model dan parameter model dimaksudkan untuk terbuka.

Model AI sumber terbuka dapat disebut model bobot terbuka. Banyak model dari China adalah model bobot terbuka, termasuk Qwen (Dari AliBababa). Kompetisi ini juga telah memaksa OpenAI untuk merilis model bobot terbuka. Ini adalah model dasar gpt-oss dengan dua varian.

Masa Depan

Kami belum menggali teknologi di balik pembuatan prompt multi-modal dan generasi multi-modal. Dengan multi-modal, kami maksudkan tidak hanya teks, tetapi juga gambar, audio, serta video. MiniMax dan DeepSeek memiliki kemampuan ini. Jelas bahwa membatasi akses terhadap perangkat keras dan pengetahuan tidak dapat menghambat inovasi sejati. Pembatasan semacam itu juga menciptakan banyak pergeseran paradigma, menjadikan AI lebih murah untuk dikembangkan dengan sumber daya perangkat keras dan daya yang lebih rendah, menciptakan masa depan yang terdemokratisasi dan terdesentralisasi di mana kami dapat menyempurnakan dan menjalankan model pada perangkat keras komoditas. Perkembangan ini memberi kami harapan bahwa kami akan dapat mengontrol dan membengkokkan kemampuan ini untuk membantu umat manusia daripada membahayakan diri kami sendiri.

DEEPSEEK-1.72%
H1.52%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)