REPUBLIKA.CO.ID, JAKARTA — Gemini adalah model kecerdasan buatan baru dan canggih dari Google, yang tidak hanya dapat memahami teks tetapi juga gambar, video, dan audio. Sebagai model multimodal, Gemini digambarkan mampu menyelesaikan tugas-tugas kompleks di bidang matematika, fisika, dan bidang lainnya, serta memahami dan menghasilkan kode berkualitas tinggi dalam berbagai bahasa pemrograman.
Saat ini, Gemini tersedia melalui integrasi dengan Google Bard dan Google Pixel 8, serta secara bertahap akan digabungkan ke layanan Google lainnya. “Gemini adalah hasil upaya kolaboratif skala besar oleh tim di seluruh Google, termasuk kolega kami di Google Research,” ujar CEO dan salah satu pendiri Google DeepMind, Dennis Hassabis, melansir ZDNet, Jumat (8/12/2023).
Gemini diciptakan oleh Google dan Alphabet, perusahaan induk Google, dan dirilis sebagai model AI tercanggih Google hingga saat ini. Google DeepMind juga memberikan kontribusi signifikan terhadap pengembangan Gemini.
Google menggambarkan Gemini sebagai model fleksibel yang mampu berjalan di segala hal mulai dari pusat data Google hingga perangkat seluler. Untuk mencapai skalabilitas ini, Gemini dirilis dalam tiga ukuran, Gemini Nano, Gemini Pro, dan Gemini Ultra.
• Gemini Nano
Ukuran model Gemini Nano dirancang untuk berjalan di ponsel cerdas, khususnya Google Pixel 8. Model ini dibuat untuk melakukan tugas pada perangkat yang memerlukan pemrosesan AI yang efisien tanpa terhubung ke server eksternal, seperti menyarankan balasan dalam aplikasi obrolan atau meringkas teks .
• Gemini Pro
Berjalan di pusat data Google, Gemini Pro dirancang untuk mendukung versi terbaru chatbot AI perusahaan, Google Bard. Ini mampu memberikan waktu respons yang cepat dan memahami pertanyaan yang kompleks.
• Gemini Ultra
Meskipun masih belum tersedia untuk digunakan secara luas, Google menggambarkan Gemini Ultra sebagai model yang paling mumpuni, melebihi hasil mutakhir pada 30 dari 32 tolak ukur akademis yang banyak digunakan dalam penelitian model bahasa besar (LLM) dan pengembangan. Ini dirancang untuk tugas-tugas yang sangat kompleks dan akan dirilis setelah menyelesaikan tahap pengujian saat ini.
Google berencana untuk mengintegrasikan Gemini dari waktu ke waktu ke dalam Penelusuran, Iklan, Chrome, dan layanan lainnya. Pengembang dan pelanggan perusahaan akan dapat mengakses Gemini Pro melalui Gemini API di AI Studio Google dan Google Cloud Vertex AI mulai tanggal 13 Desember. Pengembang Android akan memiliki akses ke Gemini Nano melalui AICore, yang akan tersedia dalam basis pratinjau awal.
Gemini tampaknya menjadi salah satu model AI terbesar dan tercanggih hingga saat ini. Dibandingkan dengan model populer lainnya yang mendukung chatbot AI saat ini, Gemini menonjol karena karakteristik multimodal aslinya, sedangkan model lain, seperti GPT-4, mengandalkan plugin dan integrasi agar benar-benar multimodal.
Dibandingkan dengan GPT-4, model yang sebagian besar berbasis teks, Gemini dengan mudah melakukan tugas multimodal secara native. Meskipun GPT-4 unggul dalam tugas-tugas terkait bahasa seperti pembuatan konten dan analisis teks kompleks, GPT-4 menggunakan plugin OpenAI untuk melakukan analisis gambar dan mengakses web, serta mengandalkan DALL-E 3 dan Whisper untuk menghasilkan gambar dan memproses audio.
Gemini juga tampaknya lebih fokus pada produk dibandingkan model lain yang tersedia saat ini. Ini terintegrasi ke dalam ekosistem perusahaan atau direncanakan untuk diintegrasikan ke dalam ekosistem perusahaan karena mendukung perangkat Bard dan Pixel 8. Sementara model lainnya, seperti GPT-4 dan Meta's Llama, lebih berorientasi pada layanan, dan tersedia untuk berbagai pengembang pihak ketiga untuk aplikasi, alat, dan layanan.