Minggu lalu jutawan dan pemilik X, Elon Musk, mendakwa kumpulan data yang dijana manusia yang digunakan untuk melatih model kecerdasan buatan (AI) seperti ChatGPT telah kehabisan.
Musk tidak memetik bukti untuk menyokong ini. Tetapi tokoh industri teknologi terkemuka lain telah membuat tuntutan serupa dalam beberapa bulan kebelakangan ini. Dan penyelidikan awal menunjukkan data yang dijana manusia akan kehabisan dalam tempoh dua hingga lapan tahun.
Ini sebahagian besarnya kerana manusia tidak dapat mencipta data baharu seperti teks, video dan imej dengan cukup pantas untuk bersaing dengan permintaan yang pantas dan besar bagi model AI. Apabila data tulen kehabisan, ia akan menimbulkan masalah besar bagi kedua-dua pembangun dan pengguna AI.
Ia akan memaksa syarikat teknologi untuk bergantung lebih banyak pada data yang dihasilkan oleh AI, yang dikenali sebagai "data sintetik". Dan ini, seterusnya, boleh menyebabkan sistem AI yang kini digunakan oleh ratusan juta orang menjadi kurang tepat dan boleh dipercayai - dan oleh itu, berguna.
Tetapi ini bukan hasil yang tidak dapat dielakkan. Malah, jika digunakan dan diurus dengan teliti, data sintetik boleh meningkatkan model AI.
Masalah dengan data sebenar
Syarikat teknologi bergantung pada data - sebenar atau sintetik - untuk membina, melatih dan memperhalusi model AI generatif seperti ChatGPT. Kualiti data ini adalah penting. Data yang lemah membawa kepada output yang lemah, dengan cara yang sama menggunakan bahan-bahan berkualiti rendah dalam masakan boleh menghasilkan hidangan berkualiti rendah.
Data sebenar merujuk kepada teks, video dan imej yang dicipta oleh manusia. Syarikat mengumpulnya melalui kaedah seperti tinjauan, eksperimen, pemerhatian atau perlombongan laman web dan media sosial.
Data sebenar biasanya dianggap berharga kerana ia termasuk peristiwa benar dan menangkap pelbagai senario dan konteks. Walau bagaimanapun, ia tidak sempurna.
Contohnya, ia boleh mengandungi ralat ejaan dan kandungan yang tidak konsisten atau tidak berkaitan . Ia juga boleh sangat berat sebelah , yang boleh, sebagai contoh, membawa kepada model AI generatif mencipta imej yang menunjukkan hanya lelaki atau orang kulit putih dalam pekerjaan tertentu.
Data seperti ini juga memerlukan banyak masa dan usaha untuk disediakan. Mula-mula, orang ramai mengumpul set data, sebelum melabelkannya untuk menjadikannya bermakna untuk model AI. Mereka kemudiannya akan menyemak dan membersihkan data ini untuk menyelesaikan sebarang ketidakkonsistenan, sebelum komputer menapis, mengatur dan mengesahkannya.
Proses ini boleh mengambil masa sehingga 80% daripada jumlah pelaburan masa dalam pembangunan sistem AI.
Tetapi seperti yang dinyatakan di atas, data sebenar juga semakin berkurangan kerana manusia tidak dapat menghasilkannya dengan cukup cepat untuk memenuhi permintaan AI yang semakin meningkat.
Peningkatan data sintetik
Data sintetik dicipta atau dijana secara buatan oleh algoritma , seperti teks yang dijana oleh ChatGPT atau imej yang dijana oleh DALL-E .
Secara teorinya, data sintetik menawarkan penyelesaian yang menjimatkan kos dan lebih pantas untuk melatih model AI.
Ia juga menangani kebimbangan privasi dan isu etika , terutamanya dengan maklumat peribadi yang sensitif seperti data kesihatan.
Yang penting, tidak seperti data sebenar ia tidak kekurangan. Malah, ia tidak terhad.
Dari sini satu-satunya data Sintetiknya.
— Rohan Paul (@rohanpaul_ai) 9 Januari 2025
"Jumlah kumulatif pengetahuan manusia telah habis dalam latihan AI. Itu berlaku, pada asasnya, tahun lepas."
– Elon pic.twitter.com/rdPzCbvdLv
Cabaran data sintetik
Atas sebab ini, syarikat teknologi semakin beralih kepada data sintetik untuk melatih sistem AI mereka. Firma penyelidikan Gartner menganggarkan bahawa menjelang 2030, data sintetik akan menjadi bentuk utama data yang digunakan dalam AI.
Tetapi walaupun data sintetik menawarkan penyelesaian yang menjanjikan, ia bukan tanpa cabarannya.
Kebimbangan utama ialah model AI boleh "runtuh" apabila mereka terlalu bergantung pada data sintetik. Ini bermakna mereka mula menghasilkan begitu banyak "halusinasi" - respons yang mengandungi maklumat palsu - dan merosot begitu banyak dalam kualiti dan prestasi sehingga ia tidak boleh digunakan.
Sebagai contoh, model AI sudah bergelut dengan mengeja beberapa perkataan dengan betul. Jika data penuh kesilapan ini digunakan untuk melatih model lain, maka mereka juga pasti akan meniru ralat tersebut.
Kandungan daripada rakan kongsi kami
Data sintetik juga membawa risiko menjadi terlalu mudah . Ia mungkin tidak mempunyai butiran bernuansa dan kepelbagaian yang terdapat dalam set data sebenar, yang boleh mengakibatkan output model AI yang dilatih mengenainya juga menjadi terlalu mudah dan kurang berguna.
Mencipta sistem yang teguh untuk memastikan AI tepat dan boleh dipercayai
Untuk menangani isu ini, badan dan organisasi antarabangsa seperti International Organization for Standardization Kesatuan Telekomunikasi Antarabangsa Pertubuhan Bangsa-Bangsa Bersatu (PBB) memperkenalkan sistem yang teguh untuk menjejak dan mengesahkan data latihan AI, dan memastikan sistem itu boleh dilaksanakan secara global.
Sistem AI boleh dilengkapi untuk menjejak metadata, membolehkan pengguna atau sistem mengesan asal usul dan kualiti mana-mana data sintetik yang telah dilatih. Ini akan melengkapkan sistem penjejakan dan pengesahan standard global.
Manusia juga mesti mengekalkan pengawasan data sintetik sepanjang proses latihan model AI untuk memastikan ia berkualiti tinggi. Pengawasan ini harus termasuk menentukan objektif, mengesahkan kualiti data, memastikan pematuhan dengan piawaian etika dan memantau prestasi model AI.
Agak ironisnya, algoritma AI juga boleh memainkan peranan dalam mengaudit dan mengesahkan data, memastikan ketepatan output yang dijana AI daripada model lain. Sebagai contoh, algoritma ini boleh membandingkan data sintetik dengan data sebenar untuk mengenal pasti sebarang ralat atau percanggahan bagi memastikan data itu konsisten dan tepat. Jadi dengan cara ini, data sintetik boleh membawa kepada model AI yang lebih baik.
Masa depan AI bergantung pada data berkualiti tinggi . Data sintetik akan memainkan peranan yang semakin penting dalam mengatasi kekurangan data.
Walau bagaimanapun, penggunaannya mesti diurus dengan teliti untuk mengekalkan ketelusan, mengurangkan ralat dan memelihara privasi – memastikan data sintetik berfungsi sebagai pelengkap yang boleh dipercayai kepada data sebenar, memastikan sistem AI tepat dan boleh dipercayai.
James Jin Kang, Pensyarah Kanan dalam Sains Komputer, Universiti RMIT Vietnam .
Artikel ini diterbitkan semula daripada The Conversation di bawah lesen Creative Commons. Baca artikel asal .