Bahasa Indonesia di Era AI: Bukan Hanya Jumlah, Tapi Kualitas Data

Peran Data dalam Pengembangan Kecerdasan Buatan Berbahasa Indonesia

Sebagai dosen Sistem Informasi di UBSI Kampus Solo, saya sering melihat bagaimana Bahasa Indonesia sering kali dianggap sebagai bahasa dengan sumber daya rendah dalam pengembangan large language model (LLM). Meskipun label ini tidak sepenuhnya salah, masalah utamanya bukanlah jumlah penutur yang sedikit, melainkan minimnya data pelatihan yang benar-benar berkualitas.

Indonesia sebenarnya kaya akan penutur, tetapi miskin korpus teks yang rapi, formal, mendalam secara teknis, dan terverifikasi. Data berbahasa Indonesia yang tersedia saat ini sebagian besar berasal dari hasil web crawl yang tidak terstruktur, bercampur bahasa, penuh singkatan, ambigu, dan sarat kebisingan digital. Kondisi ini membuat AI belajar dari sumber yang rapuh sejak awal.

Masalah Struktural dalam Ekosistem Pengetahuan Nasional

Menurut saya, isu ini bukan semata-mata tentang teknologi dalam machine learning, melainkan masalah struktural dalam ekosistem pengetahuan nasional. Cara Indonesia merekam, mengelola, dan mendistribusikan pengetahuan sangat menentukan bagaimana kecerdasan buatan memahami realitas sosial, hukum, dan budaya lokal. Tanpa fondasi data yang sehat, AI hanya akan menjadi peniru kebisingan, bukan pewaris pengetahuan.

Solusi ideal untuk masalah ini adalah anotasi manual oleh pakar lokal. Pendekatan ini menjanjikan data yang kaya konteks dan akurat. Namun, realitasnya tidak sesederhana itu. Biaya besar, waktu panjang, dan tantangan skala nasional membuat metode ini sulit diwujudkan secara luas, terutama bagi negara berkembang seperti Indonesia.

Data Sintetis sebagai Jalan Tengah

Dalam situasi ini, data sintetis mulai dilirik sebagai jalan tengah. Data ini dihasilkan oleh model AI lain yang berperan sebagai “guru”, menawarkan efisiensi biaya, kecepatan, dan volume produksi besar. Meski demikian, efisiensi tidak selalu sejalan dengan kualitas.

Pengalaman awal pengembangan AI di Indonesia banyak mengandalkan terjemahan dataset instruksi dari bahasa Inggris. Hasilnya memang praktis, tetapi sering terasa janggal secara bahasa dan miskin konteks lokal. Model AI menjadi fasih secara global, tetapi canggung saat berhadapan dengan realitas Indonesia.

Pendekatan berikutnya, menggunakan model besar seperti GPT-4 untuk menghasilkan data langsung dalam Bahasa Indonesia, dinilai lebih baik karena mampu menyisipkan konteks lokal. Meski begitu, pendekatan ini menimbulkan tantangan baru berupa biaya komputasi tinggi dan ketergantungan pada model asing.

Pendekatan Kombinasi yang Menjanjikan

Pendekatan yang saat ini paling menjanjikan adalah kombinasi Evol-Instruct dan Retrieval-Augmented Generation (RAG). Dalam skema ini, AI dipaksa bernalar berdasarkan dokumen lokal seperti undang-undang, modul perkuliahan, jurnal nasional, dan arsip berita. Cara ini terbukti mampu menekan halusinasi dan menjaga konteks lokal tetap utuh.

Namun, RAG juga bukan solusi tanpa celah. Jika dokumen sumbernya buruk atau bias, AI hanya akan mereproduksi kesalahan yang sama dengan bahasa yang lebih meyakinkan. Di sinilah dilema besar muncul: data sintetis memang cepat dan murah, tetapi data asli menyimpan kompleksitas manusia yang justru penting untuk kemampuan berpikir model.

Risiko dan Tantangan Lain

Ada juga risiko lain yang tak kalah serius, yaitu penyempitan distribusi pengetahuan. Model yang terlalu bergantung pada data sintetis cenderung terlihat rapi dan lancar, tetapi rapuh secara pemahaman. Dalam konteks Indonesia, ini berbahaya. AI bisa saja fasih berbahasa Indonesia, tetapi miskin pemahaman sosial, hukum, dan budaya.

Persoalan verifikasi juga menjadi titik lemah krusial. Berbeda dengan data pemrograman yang bisa diuji lewat eksekusi kode, validasi pada ranah hukum, kebijakan publik, dan sejarah nasional masih sangat bergantung pada manusia. Karena itu, konsep human-in-the-loop bukan sekadar pelengkap, melainkan syarat mutlak.

Peluang UBSI dalam Pengembangan AI Nasional

UBSI sebagai Kampus Digital Kreatif memiliki peluang besar untuk berkontribusi dalam tantangan ini. Melalui program studi Sistem Informasi, kampus dapat menjadi ruang riset, pengembangan, dan inkubasi solusi AI berbasis data lokal yang lebih bertanggung jawab.

Pada akhirnya, membangun AI nasional tidak cukup hanya dengan mengklaim kepemilikan LLM lokal atau memperbesar ukuran model. Pertanyaan mendasarnya jauh lebih krusial: siapa yang mengontrol data, bagaimana data diverifikasi, dan pengetahuan siapa yang direplikasi ke dalam mesin.

Data sintetis memang menawarkan jalan pintas. Namun tanpa disiplin metodologis yang kuat, jalan pintas itu hanya akan memindahkan masalah ke tahap berikutnya. Tantangan Indonesia hari ini bukan lagi soal apakah data sintetis akan digunakan, melainkan bagaimana memastikan data tersebut benar-benar memperkaya pengetahuan kolektif bangsa, bukan justru menyederhanakannya demi efisiensi jangka pendek.