Google LIMoE – Langkah Menuju Tujuan Dari AI Tunggal

Google LIMoE – Langkah Menuju Tujuan Dari AI Tunggal

Google mengumumkan teknologi baru yang disebut LIMoE yang dikatakannya merupakan langkah menuju pencapaian tujuan Google dari arsitektur AI yang disebut Pathways.

Pathways adalah arsitektur AI yang merupakan model tunggal yang dapat belajar melakukan banyak tugas yang saat ini diselesaikan dengan menggunakan beberapa algoritme.

LIMoE adalah singkatan dari Mempelajari Berbagai Modalitas dengan Satu Model Campuran Ahli yang Jarang. Ini adalah model yang memproses visi dan teks secara bersamaan.

Meskipun ada arsitektur lain yang melakukan hal serupa, terobosannya adalah pada cara model baru menyelesaikan tugas-tugas ini, menggunakan teknik jaringan saraf yang disebut Model Sparse.

Model sparse dijelaskan dalam makalah penelitian tahun 2017 yang memperkenalkan pendekatan Mixture-of-Experts layer (MoE), dalam makalah penelitian berjudul, Jaringan Saraf Luar Biasa Besar: Lapisan Campuran Pakar yang Jarang Dilindungi.

Pada tahun 2021 Google mengumumkan model MoE yang disebut GLaM: Penskalaan Model Bahasa yang Efisien dengan Campuran Pakar yang dilatih hanya pada teks.

Perbedaannya dengan LIMoE adalah ia bekerja pada teks dan gambar secara bersamaan.

Model sparse berbeda dari model “padat” di mana alih-alih mencurahkan setiap bagian model untuk menyelesaikan tugas, model sparse menugaskan tugas ke berbagai “ahli” yang berspesialisasi dalam bagian tugas.

Apa yang dilakukan adalah untuk menurunkan biaya komputasi, membuat model lebih efisien.

Jadi, mirip dengan bagaimana otak melihat seekor anjing dan mengetahui bahwa itu adalah seekor anjing, bahwa itu adalah anjing pesek dan bahwa anjing itu menampilkan mantel warna coklat kekuningan, model ini juga dapat melihat gambar dan menyelesaikan tugas dengan cara yang sama, dengan menugaskan komputasi tugas ke ahli yang berbeda yang mengkhususkan diri dalam tugas mengenali anjing, jenisnya, warnanya, dll.

Model LIMoE mengarahkan masalah ke “ahli” yang berspesialisasi dalam tugas tertentu, mencapai hasil yang serupa atau lebih baik daripada pendekatan saat ini untuk memecahkan masalah.

Fitur yang menarik dari model ini adalah bagaimana beberapa ahli mengkhususkan diri sebagian besar dalam pemrosesan gambar, yang lain mengkhususkan sebagian besar dalam pemrosesan teks dan beberapa ahli mengkhususkan diri dalam melakukan keduanya.

Deskripsi Google tentang cara kerja LIMoE menunjukkan bagaimana ada ahli mata, ahli roda, ahli tekstur bergaris, tekstur padat, kata-kata, gagang pintu, makanan & buah-buahan, laut & langit, dan ahli gambar tanaman.

Pengumuman tentang algoritma baru menjelaskan para ahli ini:

“Ada juga beberapa pola kualitatif yang jelas di antara para ahli gambar — misalnya, di sebagian besar model LIMoE, ada seorang ahli yang memproses semua tambalan gambar yang berisi teks. …satu ahli memproses fauna dan tanaman hijau, dan yang lain memproses tangan manusia.”

Para ahli yang berspesialisasi dalam berbagai bagian masalah memberikan kemampuan untuk menskalakan dan secara akurat menyelesaikan banyak tugas berbeda tetapi dengan biaya komputasi yang lebih rendah.

Makalah penelitian merangkum temuan mereka:

  • “Kami mengusulkan LIMoE, campuran multimodal skala besar pertama dari model ahli.
  • Kami mendemonstrasikan secara rinci bagaimana pendekatan sebelumnya untuk mengatur model campuran ahli gagal untuk pembelajaran multimodal, dan mengusulkan skema regularisasi berbasis entropi baru untuk menstabilkan pelatihan.
  • Kami menunjukkan bahwa LIMoE menggeneralisasi di seluruh skala arsitektur, dengan peningkatan relatif dalam akurasi ImageNet nol-shot mulai dari 7% hingga 13% dibandingkan model padat yang setara.
  • Diskalakan lebih jauh, LIMoE-H/14 mencapai akurasi Zeroshot ImageNet 84,1%, sebanding dengan model kontrastif SOTA dengan tulang punggung per-modalitas dan pra-pelatihan.”

Mencocokkan Keadaan Seni

Ada banyak makalah penelitian yang diterbitkan setiap bulan. Namun hanya sedikit yang disorot oleh Google.

Biasanya Google menyoroti penelitian karena menghasilkan sesuatu yang baru, selain mencapai keadaan seni.

LIMoE mencapai prestasi ini untuk mencapai hasil yang sebanding dengan algoritme terbaik saat ini tetapi melakukannya dengan lebih efisien.

Para peneliti menyoroti keuntungan ini:

“Pada klasifikasi gambar zero-shot, LIMoE mengungguli model multimodal padat yang sebanding dan pendekatan dua menara.

LIMoE terbesar mencapai akurasi ImageNet zero-shot 84,1%, sebanding dengan model canggih yang lebih mahal.

Sparsity memungkinkan LIMoE untuk meningkatkan dengan anggun dan belajar menangani input yang sangat berbeda, mengatasi ketegangan antara menjadi generalis jack-of-all-trade dan spesialis master-of-one.”

Hasil LIMoE yang sukses membuat para peneliti mengamati bahwa LIMoE bisa menjadi jalan ke depan untuk mencapai model generalis multimodal.

Para peneliti mengamati:

“Kami percaya kemampuan untuk membangun model generalis dengan komponen spesialis, yang dapat memutuskan bagaimana modalitas atau tugas yang berbeda harus berinteraksi, akan menjadi kunci untuk menciptakan model multi-tugas multimodal yang benar-benar unggul dalam segala hal yang mereka lakukan.

LIMoE adalah langkah pertama yang menjanjikan ke arah itu.”

Potensi Kekurangan, Bias & Masalah Etis Lainnya

Ada kekurangan arsitektur ini yang tidak dibahas dalam pengumuman Google tetapi disebutkan dalam makalah penelitian itu sendiri.

Makalah penelitian mencatat bahwa, mirip dengan model skala besar lainnya, LIMoE juga dapat menimbulkan bias ke dalam hasil.

Para peneliti menyatakan bahwa mereka belum “secara eksplisit” mengatasi masalah yang melekat pada model skala besar.

Mereka menulis:

“Potensi bahaya dari model skala besar…, model kontras… dan data multimodal skala web… juga terbawa di sini, karena LIMoE tidak secara eksplisit membahasnya.”

Pernyataan di atas membuat referensi (dalam tautan catatan kaki) ke makalah penelitian tahun 2021 yang disebut, Tentang Peluang dan Risiko Model Pondasi (PDF di sini).

Makalah penelitian dari tahun 2021 itu memperingatkan bagaimana teknologi AI yang muncul dapat menyebabkan dampak sosial yang negatif seperti:

“… ketidakadilan, penyalahgunaan, dampak ekonomi dan lingkungan, pertimbangan hukum dan etika.”

Menurut makalah yang dikutip, masalah etika juga dapat muncul dari kecenderungan homogenisasi tugas, yang kemudian dapat memperkenalkan titik kegagalan yang kemudian direproduksi ke tugas lain yang mengikuti hilir.

Makalah penelitian peringatan menyatakan:

“Pentingnya model fondasi dapat diringkas dengan dua kata: kemunculan dan homogenisasi.

Munculnya berarti bahwa perilaku sistem secara implisit diinduksi daripada dibangun secara eksplisit; itu adalah sumber kegembiraan dan kecemasan ilmiah tentang konsekuensi yang tidak terduga.

Homogenisasi menunjukkan konsolidasi metodologi untuk membangun sistem pembelajaran mesin di berbagai aplikasi; itu memberikan pengaruh yang kuat terhadap banyak tugas tetapi juga menciptakan satu titik kegagalan.”

Salah satu area yang harus diperhatikan adalah AI terkait penglihatan.

Makalah tahun 2021 menyatakan bahwa keberadaan kamera di mana-mana berarti bahwa setiap kemajuan dalam AI yang terkait dengan penglihatan dapat membawa risiko bersamaan terhadap teknologi yang diterapkan secara tidak terduga yang dapat memiliki “dampak mengganggu”, termasuk yang berkaitan dengan privasi dan pengawasan.

Peringatan peringatan lain yang terkait dengan kemajuan dalam AI terkait penglihatan adalah masalah dengan akurasi dan bias.

Mereka mencatat:

“Ada riwayat bias yang dipelajari dalam model visi komputer yang terdokumentasi dengan baik, menghasilkan akurasi yang lebih rendah dan kesalahan yang berkorelasi untuk kelompok yang kurang terwakili, dengan akibatnya penyebaran yang tidak tepat dan prematur ke beberapa pengaturan dunia nyata.”

Sisa makalah ini mendokumentasikan bagaimana teknologi AI dapat mempelajari bias yang ada dan melanggengkan ketidakadilan.

“Model yayasan memiliki potensi untuk menghasilkan hasil yang tidak adil: perlakuan tidak adil terhadap orang-orang, terutama karena distribusi yang tidak merata sepanjang garis yang memperparah diskriminasi historis…. Seperti sistem AI lainnya, model dasar dapat memperparah ketidakadilan yang ada dengan menghasilkan hasil yang tidak adil, memperkuat sistem kekuasaan, dan secara tidak proporsional mendistribusikan konsekuensi negatif teknologi kepada mereka yang sudah terpinggirkan…”

Para peneliti LIMoE mencatat bahwa model khusus ini mungkin dapat mengatasi beberapa bias terhadap kelompok yang kurang terwakili karena sifat bagaimana para ahli mengkhususkan diri dalam hal-hal tertentu.

Hasil negatif semacam ini bukanlah teori, mereka adalah kenyataan dan telah berdampak negatif pada kehidupan dalam aplikasi dunia nyata seperti bias berbasis rasial yang tidak adil yang diperkenalkan oleh algoritme perekrutan pekerjaan.

Penulis makalah LIMoE mengakui kekurangan potensial tersebut dalam paragraf pendek yang berfungsi sebagai peringatan.

Tetapi mereka juga mencatat bahwa mungkin ada potensi untuk mengatasi beberapa bias dengan pendekatan baru ini.

Mereka menulis:

“…kemampuan untuk menskalakan model dengan pakar yang dapat berspesialisasi secara mendalam dapat menghasilkan kinerja yang lebih baik pada kelompok yang kurang terwakili.”

Terakhir, atribut kunci dari teknologi baru ini yang harus diperhatikan adalah bahwa tidak ada penggunaan eksplisit yang dinyatakan untuk itu.

Ini hanyalah sebuah teknologi yang dapat memproses gambar dan teks secara efisien.

Bagaimana itu bisa diterapkan, apakah itu pernah diterapkan dalam bentuk ini atau bentuk yang akan datang, tidak pernah dibahas.

Dan itulah faktor penting yang diangkat oleh kertas peringatan (Peluang dan Risiko Model Pondasi)menarik perhatian karena peneliti menciptakan kemampuan untuk AI tanpa mempertimbangkan bagaimana mereka dapat digunakan dan dampaknya terhadap masalah seperti privasi dan keamanan.

“Model yayasan adalah aset perantara tanpa tujuan tertentu sebelum diadaptasi; memahami bahaya mereka membutuhkan penalaran tentang sifat mereka dan peran yang mereka mainkan dalam membangun model khusus tugas.

Semua peringatan itu tidak disertakan dalam artikel pengumuman Google tetapi dirujuk dalam versi PDF dari makalah penelitian itu sendiri.

Pathways AI Architecture & LIMoE

Teks, gambar, data audio disebut sebagai modalitas, berbagai jenis data atau spesialisasi tugas. Modalitas juga dapat berarti bahasa lisan dan simbol.

Jadi, ketika Anda melihat frasa “multimodal” atau “modalitas” dalam artikel ilmiah dan makalah penelitian, yang biasanya mereka bicarakan adalah jenis data yang berbeda.

Tujuan utama Google untuk AI adalah apa yang disebutnya Pathways Next-Generation AI Architecture.

Pathways mewakili perpindahan dari model pembelajaran mesin yang melakukan satu hal dengan sangat baik (sehingga membutuhkan ribuan dari mereka) ke model tunggal yang melakukan semuanya dengan sangat baik.

Pathways (dan LIMoE) adalah pendekatan multimodal untuk memecahkan masalah.

Dia digambarkan seperti ini:

“Orang-orang mengandalkan banyak indra untuk memahami dunia. Itu sangat berbeda dari cara sistem AI kontemporer mencerna informasi.

Sebagian besar model saat ini hanya memproses satu modalitas informasi dalam satu waktu. Mereka dapat mengambil teks, atau gambar atau ucapan — tetapi biasanya tidak ketiganya sekaligus.

Pathways dapat mengaktifkan model multimodal yang mencakup visi, pendengaran, dan pemahaman bahasa secara bersamaan.”

Apa yang membuat LIMoE penting adalah bahwa itu adalah arsitektur multimodal yang disebut oleh para peneliti sebagai “…langkah penting menuju visi Pathways…

Para peneliti menggambarkan LIMoE sebagai “melangkah” karena ada lebih banyak pekerjaan yang harus dilakukan, termasuk mengeksplorasi bagaimana pendekatan ini dapat bekerja dengan modalitas lebih dari sekadar gambar dan teks.

Makalah penelitian ini dan artikel ringkasan yang menyertainya menunjukkan ke mana arah penelitian AI Google dan bagaimana menuju ke sana.


kutipan

Baca Artikel Ringkasan Google Tentang LIMoE

LIMoE: Mempelajari Berbagai Modalitas dengan Satu Model Campuran Ahli yang Jarang

Unduh dan Baca Makalah Penelitian LIMoE

Pembelajaran Kontrastif Multimodal dengan LIMoE: Campuran Bahasa-Gambar Para Ahli (PDF)

Gambar oleh Shutterstock/SvetaZi

Share

Leave a Reply

Your email address will not be published.