Minggu, 31 Mei 2026

Mengubah Buku Resep Belanda 1866 Jadi Data dengan Bantuan AI


Akhir pekan ini saya iseng menguji beberapa AI lewat CLI untuk satu tugas yang kelihatannya sepele, yaitu mengubah buku tua hasil scan menjadi referensi data yang rapi. Bukunya Oost-Indisch Kookboek terbitan Van Dorp, Semarang, cetakan tahun 1866, lengkap dengan istilah bahan yang sudah tidak kita pakai lagi. Salinannya saya ambil dari koleksi domain publik Perpustakaan Universitas Leiden.

Kelihatannya tugas sederhana karena ada bahan PDF, ada AI, tinggal proses. Ternyata justru di sinilah pelajaran pentingnya muncul. Catatan ini saya tulis untuk berbagi prosesnya, termasuk bagian yang gagal lebih dulu sebelum jadi.

Sebelum cerita teknisnya, perlu saya ceritakan dulu kenapa buku ini menarik sebagai bahan uji. Oost-Indisch Kookboek tahun 1866 ini bukan buku resep biasa. Dalam sejarah kuliner Hindia-Belanda, ia tercatat sebagai buku masak berbahasa Belanda pertama tentang masakan Indis. (Buku masak Indis paling awal sebenarnya Kokki Bitja tahun 1854, tapi itu ditulis dalam bahasa Melayu.) Penulis edisi 1866 ini bahkan anonim, dan judul panjangnya menyebut 456 resep "teruji" untuk dapur Belanda maupun pribumi.

Di tahun 1866, resep ditulis sebagai paragraf mengalir, bukan format "daftar bahan dulu, lalu langkah-langkah" seperti yang kita kenal sekarang. Format terstruktur yang kita anggap standar itu baru dipopulerkan beberapa dekade kemudian sebagai metode baru yang lebih praktis. Artinya, tantangannya bukan cuma scan yang kotor. Sumbernya sendiri memang tidak terstruktur. Mengubah prosa resep abad ke-19 menjadi data berarti membongkar bahan, takaran, dan langkah yang menempel jadi satu di dalam kalimat panjang, sebelum OCR-nya pun ikut bermasalah.

Garbage In, Garbage Out

Scan mentah yang langsung di-OCR hasilnya kacau:

  • Baris patah di tengah kata, karena kolom dan margin halaman tua tidak terbaca rapi.
  • Resep terpotong antar-halaman, sehingga satu resep terbelah jadi dua fragmen yang seolah tidak berhubungan.

Di titik ini saya menyadari sesuatu yang sering dilupakan orang ketika bicara soal AI , yaitu kalau input-nya berantakan, secanggih apa pun modelnya, output-nya tetap sampah. Model bahasa tidak menyulap. Ia bekerja di atas apa yang kita beri. Memberi teks rusak lalu berharap hasil bersih sama saja dengan menyuruh juru masak hebat memasak dari bahan busuk.

Dari sinilah pendekatannya berubah. Prosesnya bukan "lempar ke satu AI lalu selesai", tapi secara bertahap, di mana tiap tahap punya tugas yang berbeda dan tiap alat dipakai untuk hal yang paling dikuasainya.

OCR dengan ocrmypdf + pdftotext

Tahap paling dasar, ocrmypdf saya pakai untuk membuat lapisan teks ke dalam PDF scan, lalu pdftotext untuk menariknya keluar. Di sinilah kualitas keseluruhan ditentukan, yaitu setiap kesalahan di tahap ini akan diwariskan ke semua tahap berikutnya. Ini bagian yang paling banyak butuh percobaan ulang, tapi bagian yang menentukan apakah AI nantinya punya bahan yang layak.

DeepSeek

Setelah ada teks mentah yang sudah "lumayan", saya pakai DeepSeek untuk pemeriksaan tahap awal untuk memberi gambaran kasar struktur isinya

Claude

Tahap penyuntingan dokumen dan penataan tata letak saya serahkan ke Claude untuk menyusun kembali resep yang terpotong, merapikan struktur, dan membentuk dokumen yang konsisten dan enak dibaca. Di tahap inilah kumpulan teks mentah mulai berubah wujud menjadi sesuatu yang menyerupai dokumen referensi.

NotebookLM

Terakhir, dokumen hasil suntingan saya uji ulang dengan NotebookLM, semacam tinjauan akhir untuk menelusuri isinya, mengecek konsistensi, dan memastikan tidak ada bagian yang melenceng jauh dari sumber.

Inti dari empat tahap ini bukan soal "AI mana yang paling jago", melainkan soal memecah satu pekerjaan besar menjadi tugas-tugas kecil yang bisa diperiksa. Tiap tahap menghasilkan keluaran yang bisa saya lihat, koreksi, dan perbaiki sebelum diteruskan. Itu sebabnya saya menyebutnya 'tuning', bukan otomasi sekali jalan.

Hal yang Tidak Boleh Saya Lewatkan: Disclaimer

Ada satu hal yang harus saya tulis terus terang, yaitu saya tidak bisa bahasa Belanda. Maka sebersih apa pun tampilan dokumen akhirnya, saya tetap menyertakan disclaimer terbuka, bahwa kemungkinan salah baca dan salah tafsir belum diverifikasi oleh penutur asli.  Ini bagian yang menurut saya paling penting dan paling sering dilewati. Ketika output AI terlihat mulus, godaan terbesarnya adalah berhenti bertanya. Padahal di teks berbahasa asing yang berumur 150 tahun lebih, dengan istilah bahan yang sudah punah dari pemakaian, peluang salahnya justru besar, dan saya tidak punya kompetensi untuk menangkap kesalahan itu sendirian.

Eksperimen kecil dengan buku resep tua ini mengajari saya tiga hal yang sebenarnya berlaku jauh di luar urusan dapur abad ke-19. Beberapa kesimpulan yang saya dapatkan:

  1. Kualitas input menentukan segalanya. Investasi terbesar justru di tahap paling awal, yaitu membersihkan bahan.
  2. Pecah pekerjaan jadi tahap yang bisa diperiksa melalui satu pipeline bertahap dengan titik koreksi di tiap simpul jauh lebih andal daripada satu lompatan besar dari mentah ke jadi.
  3. Kenali batas Anda, dan tulis terus terang. Output yang rapi bukan output yang benar. Selama belum ada validasi manusia yang tepat, status pekerjaan adalah "membantu", bukan "selesai".

Inilah inti dari eksperimen ini. Bukan untuk membuktikan AI bisa menggantikan kita, tapi untuk menunjukkan dengan jelas di mana batasnya, supaya kita memakainya sebagai alat percepat yang jujur, bukan kotak hitam yang kita percaya buta.

Link hasil: https://static.wahyu.com/uploads/2026/Oost-Indisch_Kookboek_1866-R4.pdf

0 komentar:

Posting Komentar