Pemahaman gambar
Pemahaman gambar
Model Gemini dibangun dari awal untuk mendukung multimodalitas, sehingga dapat melakukan berbagai tugas pemrosesan gambar dan computer vision, termasuk tetapi tidak terbatas pada pemberian teks gambar, klasifikasi, dan menjawab pertanyaan visual tanpa harus melatih model ML khusus.
Meneruskan gambar ke Gemini
Anda dapat memberikan gambar sebagai input ke Gemini menggunakan dua metode:
- Meneruskan data gambar inline: Ideal untuk file yang lebih kecil (ukuran total permintaan kurang dari 20 MB, termasuk perintah).
- Mengupload gambar menggunakan File API: Direkomendasikan untuk file yang lebih besar atau untuk menggunakan kembali gambar di beberapa permintaan.
Meneruskan data gambar inline
Anda dapat meneruskan data gambar inline dalam permintaan ke generateContent. Anda dapat menyediakan data gambar sebagai string berenkode Base64 atau dengan membaca file lokal secara langsung (bergantung pada bahasa).
Contoh berikut menunjukkan cara membaca gambar dari file lokal dan meneruskannya ke generateContent API untuk diproses.
Anda juga dapat mengambil gambar dari URL, mengonversinya ke byte, dan meneruskannya ke generateContent seperti yang ditunjukkan dalam contoh berikut.
Mengupload gambar menggunakan File API
Untuk file besar atau agar dapat menggunakan file gambar yang sama berulang kali, gunakan Files API. Kode berikut mengupload file gambar, lalu menggunakan file tersebut dalam panggilan ke generateContent. Lihat panduan Files API untuk mengetahui informasi dan contoh selengkapnya.
Membuat perintah dengan beberapa gambar
Anda dapat memberikan beberapa gambar dalam satu perintah dengan menyertakan beberapa objek gambar Part dalam array contents. Ini dapat berupa campuran data inline (file lokal atau URL) dan referensi File API.
Deteksi objek
Mulai dari Gemini 2.0, model dilatih lebih lanjut untuk mendeteksi objek dalam gambar dan mendapatkan koordinat kotak pembatasnya. Koordinat, relatif terhadap dimensi gambar, diskalakan ke [0, 1000]. Anda harus membatalkan penskalaan koordinat ini berdasarkan ukuran gambar asli Anda.
Untuk contoh lainnya, lihat notebook berikut di Gemini Cookbook:
Segmentasi
Mulai dari Gemini 2.5, model tidak hanya mendeteksi item, tetapi juga menyegmentasikannya dan memberikan masker konturnya.
Model memprediksi daftar JSON, dengan setiap item mewakili mask segmentasi. Setiap item memiliki kotak pembatas ("box_2d") dalam format [y0, x0, y1, x1] dengan koordinat yang dinormalisasi antara 0 dan 1000, label ("label") yang mengidentifikasi objek, dan terakhir mask segmentasi di dalam kotak pembatas, sebagai png yang dienkode base64 yang merupakan peta probabilitas dengan nilai antara 0 dan 255. Masker perlu diubah ukurannya agar sesuai dengan dimensi kotak pembatas, lalu dikonversi menjadi biner pada ambang batas keyakinan Anda (127 untuk titik tengah).
Lihat contoh segmentasi dalam panduan cookbook untuk contoh yang lebih mendetail.

Format gambar yang didukung
Gemini mendukung jenis MIME format gambar berikut:
- PNG -
image/png - JPEG -
image/jpeg - WEBP -
image/webp - HEIC -
image/heic - HEIF -
image/heif
Kemampuan
Semua versi model Gemini bersifat multimodal dan dapat digunakan dalam berbagai tugas pemrosesan gambar dan computer vision, termasuk, tetapi tidak terbatas pada pemberian teks pada gambar, pertanyaan dan jawaban visual, klasifikasi gambar, deteksi dan segmentasi objek.
Gemini dapat mengurangi kebutuhan untuk menggunakan model ML khusus, bergantung pada persyaratan kualitas dan performa Anda.
Beberapa versi model yang lebih baru dilatih secara khusus untuk meningkatkan akurasi tugas khusus selain kemampuan umum:
Model Gemini 2.0 dilatih lebih lanjut untuk mendukung deteksi objek yang lebih baik.
Model Gemini 2.5 dilatih lebih lanjut untuk mendukung segmentasi yang ditingkatkan selain deteksi objek.
Batasan dan informasi teknis utama
Batas file
Gemini 2.5 Pro/Flash, 2.0 Flash, 1.5 Pro, dan 1.5 Flash mendukung maksimal 3.600 file gambar per permintaan.
Penghitungan token
- Gemini 1.5 Flash dan Gemini 1.5 Pro: 258 token jika kedua dimensi <= 384 piksel. Gambar yang lebih besar disusun dalam petak (petak min. 256 piksel, maks. 768 piksel, diubah ukurannya menjadi 768x768), dengan setiap petak berharga 258 token.
- Gemini 2.0 Flash dan Gemini 2.5 Flash/Pro: 258 token jika kedua dimensi <= 384 piksel. Gambar yang lebih besar diatur menjadi ubin 768x768 piksel, yang masing-masing berharga 258 token.
Formula kasar untuk menghitung jumlah kartu adalah sebagai berikut:
- Hitung ukuran unit pangkas yang kira-kira: floor(min(width, height) / 1.5).
- Bagi setiap dimensi dengan ukuran unit pangkas dan kalikan bersama untuk mendapatkan jumlah petak.
Misalnya, gambar berdimensi 960x540 akan memiliki ukuran unit pangkas 360. Bagilah setiap dimensi dengan 360 dan jumlah petak adalah 3 * 2 = 6.
Tips dan praktik terbaik
- Pastikan gambar diputar dengan benar.
- Gunakan gambar yang jelas dan tidak buram.
- Saat menggunakan satu gambar dengan teks, tempatkan perintah teks setelah bagian gambar dalam array
contents.
Langkah berikutnya
Panduan ini menunjukkan cara mengupload file gambar dan membuat output teks dari input gambar. Untuk mempelajari lebih lanjut, lihat referensi berikut:
- Files API: Pelajari lebih lanjut cara mengupload dan mengelola file untuk digunakan dengan Gemini.
- Petunjuk sistem: Petunjuk sistem memungkinkan Anda mengarahkan perilaku model berdasarkan kebutuhan dan kasus penggunaan spesifik Anda.
- Strategi perintah file: Gemini API mendukung perintah dengan data teks, gambar, audio, dan video, yang juga dikenal sebagai perintah multimodal.
- Panduan keamanan: Terkadang model AI generatif menghasilkan output yang tidak terduga, seperti output yang tidak akurat, bias, atau menyinggung. Pemrosesan pasca-output dan evaluasi manusia sangat penting untuk membatasi risiko bahaya dari output tersebut.
Kecuali dinyatakan lain, konten di halaman ini dilisensikan berdasarkan Lisensi Creative Commons Attribution 4.0, sedangkan contoh kode dilisensikan berdasarkan Lisensi Apache 2.0. Untuk mengetahui informasi selengkapnya, lihat Kebijakan Situs Google Developers. Java adalah merek dagang terdaftar dari Oracle dan/atau afiliasinya.
Terakhir diperbarui pada 2025-10-11 UTC.
Comments
Post a Comment