Twitter adalah salah satu media sosial terpopuler di dunia. Menurut laporan keuangan investor perusahaan, ada sekitar 238 juta pengguna Twitter per Juli 2022.
Berdasarkan analisis real-time dari Internet Live Stats, setiap detik rata-rata ada sekitar 6.000 tweets di Twitter. Dengan rata-rata per menit ada lebih dari 350 ribu tweets, 500 juta tweets per hari, dan sekitar 200 miliar tweets per tahunnya.
Di antara ratusan juta pengguna itu, mayoritas atau sekitar 94 persen pengguna menyatakan tertarik dengan kejadian teraktual. Selain itu, 85 persen pengguna memakai layanan berbasis mikroblog itu untuk menonton, membaca, atau mendengarkan berita setidaknya sekali dalam sehari.
Oleh sebab itu, sering kali Twitter menjadi medium untuk penyampaian aksi, kampanye, atau inisiatif tertentu untuk menggalang massa. Tak jarang pula Twitter menjadi alat untuk berkeluh kesah.
Usaha rintisan lokal Pacmann, pada Rabu (2/11/2022) merilis laporannya tentang percakapan warganet mengenai isu macet di media sosial Twitter. Berdasarkan laporan itu, terdapat nyaris setengah juta tweets yang memuat kata kunci macet di Twitter. Pacmann pun menganalisis tweets tersebut dengan machine learning, Named-Entity Recognition untuk mendeteksi daerah mana saja yang warganet paling sering keluhkan soal macet dari 1 Januari hingga 21 Oktober 2022.
"Model kami berhasil mendeteksi lebih dari 6.000 daerah di Indonesia. Mulai dari tingkat desa/kelurahan hingga provinsi," ujar Adityo Sanjaya selaku CEO dan Chief of Data Scientist Pacmann. Terungkap, Jakarta menjadi daerah yang paling banyak warganet keluhkan soal macet dengan mention lebih dari 30 ribu kali dari total lebih dari 110 ribu tweets yang terdeteksi memuat nama daerah.
"Fakta ini sebetulnya tidak mengagetkan, mengingat Jakarta sebagai pusat pemerintahan dan pusat ekonomi memang menjadi magnet tersendiri bagi para perantau dari berbagai kota di Indonesia," ungkap pria yang akrab disapa Adit itu lebih lanjut. Kemudian, ia melanjutkan, di tempat kedua dan ketiga ada Bandung dan Yogyakarta dengan frekuensi penyebutan masing-masing sekitar 8.000 dan 4.000 tweets.
Melengkapi daftar lima besar, tweets yang memuat Bogor dan Bekasi masing-masing berjumlah 3.500-an. Selain daerah-daerah tersebut, tingkat kemacetan juga terdeteksi di Ciputat, Cikarang, Manggarai, dan Cileungsi.
Terlepas dari urutannya, hasil analisis Named-Entity Recognition juga relatif selaras dengan laporan dari "The 2021 Global Traffic Scorecard" dari INRIX. Menurut laporan itu, lima besar kota paling macet di Indonesia adalah Surabaya, Jakarta, Denpasar, Malang, dan Bogor. Deteksi Asosiasi Kata dengan Word2Vec.
Selain memakai machine learning Named-Entity Recognition, Pacmann juga menganalisis kata-kata apa saja yang paling berdekatan dengan kata macet. Named-Entity Recognition dan Word2Vec pada dasarnya adalah penerapan dari Natural Language Processing (NLP) yang merupakan cabang dari Artificial Intelligence (AI).
Dengan NLP berbagai data yang ada ini kemudian dianalisis menjadi data tekstual, yang merupakan bagian data tak terstruktur. Kemudian, merepresentasikan semua kata menjadi data vektor.
Metode ini menerapkan model jaringan saraf (neural network) yang dirancang untuk memperhitungkan asosiasi kata di dalam data tekstual seperti tweets. Pengajar di Pacmann sekaligus Data Scientist di Valiance, Ghifari Adam menjelaskan, kata-kata yang paling berdekatan di dalam data yang Pacmann analisis antara lain jam, banjir, jalan, tol, pulang, hujan, mudik, pagi, capek, kerja, arus, mobil, dan berangkat.
"Kalau kita perhatikan, ada sekelompok kata-kata yang bertetangga dengan kata macet. Beragam kata ini berkaitan erat secara semantik dalam konteks jam berangkat dan pulang kerja," ujarnya.
Selain itu, Ghifari mengungkapkan ada juga sekelompok kata lainnya yang berasosiasi dengan situasi kondisional tertentu seperti banjir, hujan, dan mudik. Semua kata-kata yang berasosiasi dengan kemacetan ini kemudian menjadi bahan pengumpulan data untuk membetikan gambaran yang akurat.