REPUBLIKA.CO.ID, JAKARTA -- Para peneliti dari Stanford Internet Observatory mengatakan bahwa kumpulan data yang digunakan untuk melatih alat pembuat gambar AI, berisi setidaknya 1.008 contoh materi pelecehan seksual terhadap anak (SCAM). Para peneliti Stanford mencatat bahwa kehadiran CSAM dalam kumpulan data, memungkinkan model AI yang dilatih berdasarkan data tersebut menghasilkan contoh CSAM yang baru dan bahkan realistis.
LAION, organisasi nirlaba yang membuat kumpulan data tersebut, mengatakan bahwa mereka tidak memiliki kebijakan toleransi terhadap konten ilegal. “Untuk sementara, kami menghapus kumpulan data LAION untuk memastikan keamanannya sebelum mempublikasikannya kembali,” ujar mereka.
Organisasi tersebut menambahkan bahwa, sebelum menerbitkan kumpulan datanya, mereka membuat filter untuk mendeteksi dan menghapus konten ilegal dari kumpulan data tersebut. Namun, para pemimpin LAION telah menyadari setidaknya sejak 2021 bahwa ada kemungkinan sistem mereka terkena CSAM saat mereka menyedot miliaran gambar dari internet.
Menurut laporan sebelumnya, kumpulan data LAION-5B yang dimaksud berisi jutaan gambar pornografi, kekerasan, ketelanjangan anak-anak, meme rasis, simbol kebencian, karya seni berhak cipta, dan karya yang diambil dari situs web perusahaan swasta.
Secara keseluruhan, ini mencakup lebih dari lima miliar gambar dan keterangan deskriptif. Pendiri LAION Christoph Schuhmann mengatakan, meskipun dia tidak mengetahui adanya CSAM dalam kumpulan data, dia belum memeriksa data tersebut secara mendalam.
Sebagian besar institusi di AS melihat CSAM untuk tujuan verifikasi adalah tindakan ilegal. Oleh karena itu, para peneliti Stanford menggunakan beberapa teknik untuk mencari potensi CSAM.
Menurut makalah mereka, mereka menggunakan deteksi berbasis hash perseptual, deteksi berbasis hash kriptografi, dan analisis tetangga terdekat yang memanfaatkan penyematan gambar dalam kumpulan data itu sendiri.
Mereka menemukan 3.226 entri yang....