Home > Kolom

Revolusi AI Multimodal: Catatan Cak AT

Kimi bisa membaca laporan keuangan dalam Excel, mencocokkannya dengan kontrak di PDF, dan merangkum hasilnya dalam bentuk presentasi PowerPoint.
Foto ilustrasi Catatan Cak AT: Revolusi AI Multimodal. (Foto: Dok RUZKA INDONESIA)
Foto ilustrasi Catatan Cak AT: Revolusi AI Multimodal. (Foto: Dok RUZKA INDONESIA)

RUZKA-REPUBLIKA NETWORK -- Setelah DeepSeek dan Qwen, di arena pertarungan kecerdasan buatan kini muncul sebuah bintang baru bernama Kimi AI.

Dikembangkan oleh perusahaan rintisan Tiongkok, Moonshot AI, model ini digadang-gadang sebagai terobosan dalam pemrosesan multimodal yang sepenuhnya dapat digunakan gratis oleh siapa pun.

AI multimodal meniru cara manusia memproses informasi dari berbagai sumber sekaligus, bukan hanya dari satu jenis input saja.

Kimi bisa membaca laporan keuangan dalam Excel, mencocokkannya dengan kontrak di PDF, dan merangkum hasilnya dalam bentuk presentasi PowerPoint.

Jika diberi foto struk belanja, AI ini bisa mengekstrak angka total belanja dan membandingkannya dengan data pengeluaran sebelumnya. AI multimodal bisa menonton video kuliah, menyalin teksnya, lalu meringkas poin-poin pentingnya. Dengan ini, apakah Kimi k1.5 benar-benar revolusioner, meninggalkan pendahulunya?

Ya, Kimi k1.5 terbukti mampu memahami berbagai jenis input, mulai dari teks hingga gambar, bahkan kode pemrograman. Bayangkan sebuah AI yang bisa membaca novel, mengomentari foto liburan Anda, dan sekaligus membantu debug kode yang error. Kedengarannya seperti asisten sempurna, bukan?

AI yang satu ini mampu menangani 50 jenis file yang diunggah ke dalamnya, mulai dari DOCX, XLSX, PDF, hingga presentasi. Bahkan, ia mampu membaca angka-angka yang tertulis dalam file gambar dan menganalisisnya jika diminta. Ini berarti kita bisa mengekstrak informasi dari berbagai sumber sekaligus, tanpa harus repot-repot menyalin atau mengonversinya secara manual.

Bayangkan, Anda memiliki tumpukan laporan keuangan, data penjualan dalam Excel, presentasi strategis dalam PowerPoint, serta memo dalam PDF. Alih-alih membacanya satu per satu, Anda cukup mengunggah semuanya ke Kimi, lalu memintanya untuk merangkum, membandingkan data, atau bahkan membuat analisis mendalam. Kedengarannya seperti mimpi bagi seorang analis, bukan?

Namun, seperti halnya setiap inovasi, pertanyaan yang perlu kita tekankan dalam penggunaan aplikasi AI: Seberapa akurat Kimi dalam memahami dan menghubungkan informasi dari berbagai format ini? Apakah ia hanya mengandalkan pemrosesan teks biasa, atau benar-benar bisa melakukan sintesis data yang mendalam?

Selain multimodal, satu fitur lainnya yang paling dipuji dari Kimi k1.5 adalah kemampuannya dalam memahami konteks teks yang sangat panjang, berkat jendela konteks 128.000 token yang dimilikinya. Ini berarti ia dapat memproses satu novel utuh dalam sekali jalan, tanpa harus memecahnya menjadi bagian-bagian kecil.

Jendela konteks adalah jumlah maksimum kata atau token yang dapat diproses dan diingat oleh model AI dalam satu kali pemrosesan. Dalam konteks AI seperti Kimi K1.5, jendela konteks 128.000 token berarti model ini bisa memahami teks yang sangat panjang, setara dengan sebuah novel utuh, dalam sekali analisis tanpa harus memotong atau kehilangan bagian penting.

Jika diibaratkan manusia membaca buku, AI dengan jendela konteks kecil seperti 4.096 token (GPT-3.5) hanya bisa mengingat satu bab sebelum lupa bab sebelumnya. Sementara Kimi K1.5 dengan 128.000 token bisa membaca seluruh buku dan tetap menghubungkan semua informasinya dalam satu pemahaman.

Setiap AI memiliki batas jendela konteks yang berbeda: GPT-3.5: 4.096 token (sekitar 3 halaman teks). GPT-4: 8.192 token (sekitar 6 halaman teks) Claude 2: 100.000 token (bisa menangani seluruh buku). Kimi K1.5: 128.000 token. Semakin besar jendela konteks, semakin baik model dalam mengingat informasi yang lebih luas dalam satu kali pemrosesan.

Apa manfaat jendela konteks yang besar? Di antaranya, untuk analisis dokumen panjang, Kimi bisa membaca dan membandingkan laporan keuangan lengkap, bukan hanya ringkasannya. Dalam penyelesaian soal matematika kompleks, AI bisa melihat langkah-langkah sebelumnya dan memperbaiki kesalahan tanpa kehilangan informasi awal.

Dalam memahami novel dan literatur, Kimi bisa memahami alur cerita panjang tanpa kehilangan detail penting dari bab-bab sebelumnya. Ini juga bermanfaat untuk interaksi percakapan yang lebih konsisten, Kimi bisa mengingat keseluruhan percakapan dalam sesi panjang tanpa lupa konteks awal.

Semakin besar jendela konteks, semakin luas kemampuan AI dalam memahami informasi tanpa kehilangan konteks awalnya. Kimi K1.5 dengan 128.000 token mampu menangani dokumen yang lebih panjang dibandingkan model lain, sehingga lebih cocok untuk analisis mendalam dan tugas kompleks.

Konsep ini bisa dianalogikan sebagai memberikan "memori fotografi" kepada AI untuk teks. Biasanya, AI hanya bisa "mengingat" sebagian kecil informasi dalam satu waktu. Namun, dengan jendela konteks yang luas ini, Kimi bisa menelusuri kembali teks yang telah dibaca sebelumnya, memungkinkan pemrosesan informasi yang lebih mendalam.

Manfaatnya tidak hanya sebatas membaca novel tanpa kehilangan benang merah. Dalam pemecahan masalah matematika, misalnya, model ini dapat merencanakan langkah-langkah solusi, merefleksikan jawabannya, dan memperbaiki kesalahan secara mandiri.

Ini mirip dengan cara manusia menyelesaikan soal kompleks: membaca ulang pertanyaan, memeriksa hasil perhitungan, lalu mengoreksi jika ada kekeliruan.

Tapi, lagi-lagi, kita harus bertanya: Apakah ini benar-benar kecerdasan yang lebih mendalam, atau hanya sekadar kemampuan "mengingat lebih banyak" tanpa pemahaman sejati?

Tak dapat dipungkiri, Kimi k1.5 telah menarik perhatian dengan performanya yang diklaim menyaingi model-model terkemuka seperti OpenAI-GPT4o. Namun, dalam perlombaan AI yang semakin ketat, apakah Kimi k1.5 mampu mempertahankan momentumnya, atau hanya akan menjadi bintang jatuh yang sesaat bersinar?

Yang pasti, Kimi k1.5 menawarkan janji yang menggiurkan dalam dunia AI multimodal. Kemampuannya membaca berbagai format file, memahami angka dalam gambar, serta menangani teks dalam jumlah besar memang terdengar menjanjikan. Namun, seperti halnya teknologi baru lainnya, penting bagi kita untuk tetap kritis dan tidak terjebak dalam hype semata.

Apakah ini benar-benar lompatan revolusioner dalam AI, atau hanya "AI yang lebih rakus" dalam mengonsumsi data? Hanya waktu yang akan membuktikannya.

Sementara itu, mari kita nikmati pertunjukan ini dengan sejumput optimisme dan secangkir kopi. (***)

Penulis: Cak AT - Ahmadie Thaha/Ma'had Tadabbur al-Qur'an, 9/2/2025

× Image