Versi baru GPT-3 berperilaku jauh lebih baik (dan seharusnya tidak terlalu beracun)

Versi baru GPT-3 berperilaku jauh lebih baik (dan seharusnya tidak terlalu beracun)

OpenAI telah membangun versi baru GPT-3, model bahasa yang mengubah permainan, yang dikatakan telah menghilangkan beberapa masalah paling berbahaya yang mengganggu pendahulunya. Lab yang berbasis di San Francisco mengatakan model yang diperbarui, yang disebut InstructGPT, lebih baik dalam mengikuti instruksi orang yang menggunakannya—dikenal sebagai “penyelarasan” dalam jargon AI—dan dengan demikian menghasilkan lebih sedikit bahasa yang menyinggung, lebih sedikit informasi, dan lebih sedikit kesalahan secara keseluruhan—kecuali secara eksplisit diberitahu untuk tidak melakukannya.

Model bahasa besar seperti GPT-3 dilatih menggunakan banyak teks, banyak diambil dari internet, di mana mereka menemukan yang terbaik dan terburuk dari apa yang orang tuliskan dengan kata-kata. Itu adalah masalah untuk chatbots dan alat pembuat teks saat ini. Model menyerap bahasa beracun — dari teks yang rasis dan misoginis atau yang mengandung prasangka yang lebih berbahaya dan tertanam — serta kepalsuan.

OpenAI telah menjadikan IntructGPT sebagai model default bagi pengguna antarmuka pemrograman aplikasi (API)—layanan yang memberikan akses ke model bahasa perusahaan dengan biaya tertentu. GPT-3 akan tetap tersedia tetapi OpenAI tidak menyarankan untuk menggunakannya. “Ini pertama kalinya teknik penyelarasan ini diterapkan pada produk nyata,” kata Jan Leike, yang ikut memimpin tim penyelarasan OpenAI.

Baca Juga :   Acara Samsung Galaxy A berikutnya berlangsung pada 17 Maret

Upaya sebelumnya untuk mengatasi masalah termasuk menyaring serangan bahasa dari set pelatihan. Tapi itu bisa membuat model berkinerja kurang baik, terutama dalam kasus di mana data pelatihan sudah jarang, seperti teks dari kelompok minoritas.

Peneliti OpenAI telah menghindari masalah ini dengan memulai dengan sepenuhnya model GPT-3 terlatih. Mereka kemudian menambahkan putaran pelatihan lain, menggunakan pembelajaran penguatan untuk mengajarkan model apa yang harus dikatakan dan kapan, berdasarkan preferensi pengguna manusia.

Untuk melatih InstructGPT, OpenAI mempekerjakan 40 orang untuk menilai respons GPT-3 terhadap suatu rentang dari perintah yang telah ditulis sebelumnya, seperti, “Tulis cerita tentang katak bijak bernama Julius” atau “Tulis iklan kreatif untuk produk berikut untuk dijalankan di Facebook.” Tanggapan yang mereka nilai lebih sesuai dengan maksud yang jelas dari penulis cepat diberi skor lebih tinggi. Tanggapan yang mengandung bahasa seksual atau kekerasan, merendahkan sekelompok orang tertentu, menyatakan pendapat, dan sebagainya, diberi tanda. Umpan balik ini kemudian digunakan sebagai hadiah dalam algoritme pembelajaran penguatan yang melatih InstructGPT untuk mencocokkan respons terhadap petunjuk dengan cara yang disukai juri.

OpenAI menemukan bahwa pengguna API-nya lebih menyukai InstructGPT daripada GPT-3 lebih dari 70% sepanjang waktu. “Kami tidak lagi melihat kesalahan tata bahasa dalam pembuatan bahasa,” kata Ben Roe, kepala produk di Yabble, perusahaan riset pasar yang menggunakan model OpenAI untuk membuat ringkasan bahasa alami dari data bisnis kliennya. “Ada juga kemajuan yang jelas dalam kemampuan model baru untuk memahami dan mengikuti instruksi.”

Baca Juga :   Krisis Crypto Terra Tidak Dapat Dihindari

“Sangat menyenangkan bahwa pelanggan lebih memilih model yang selaras ini,” kata Ilya Sutskever, kepala ilmuwan di OpenAI. “Ini berarti ada banyak insentif untuk membangunnya.”

Para peneliti juga membandingkan versi InstructGPT dengan ukuran berbeda dan menemukan bahwa pengguna lebih menyukai respons 1,3 miliar -parameter Menginstruksikan model GPT ke model GPT-3 175 miliar parameter, meskipun modelnya 100 kali lebih kecil. Itu berarti penyelarasan bisa menjadi cara mudah untuk membuat model bahasa menjadi lebih baik, daripada hanya meningkatkan ukurannya, kata Leike .

“Pekerjaan ini mengambil langkah penting ke arah yang benar,” kata Douwe Kiela , seorang peneliti di Hugging Face, sebuah perusahaan AI yang bekerja pada model bahasa sumber terbuka. Dia menyarankan bahwa proses pelatihan yang didorong oleh umpan balik dapat diulang dalam banyak putaran, meningkatkan model bahkan lagi. Leike mengatakan OpenAI bisa melakukan ini dengan membangun umpan balik pelanggan.

InstructGPT masih membuat kesalahan sederhana, terkadang menghasilkan tanggapan yang tidak relevan atau tidak masuk akal. Jika diberi prompt yang berisi kepalsuan, misalnya, itu akan menganggap kepalsuan itu sebagai benar. Dan karena telah dilatih untuk melakukan apa yang diminta orang, InstructGPT akan menghasilkan bahasa yang jauh lebih beracun daripada GPT-3 jika diarahkan untuk melakukannya.

Baca Juga :   Unduhan: Di dalam pertarungan sengit dan berantakan untuk teknologi gula "sehat"

Ehud Reiter, yang bekerja pada AI generasi teks di University of Aberdeen, Inggris, menyambut baik teknik apa pun yang mengurangi jumlah kesalahan informasi yang dihasilkan model bahasa. Tetapi dia mencatat bahwa untuk beberapa aplikasi, seperti AI yang memberikan nasihat medis, tidak ada kebohongan yang dapat diterima. Reiter mempertanyakan apakah model bahasa besar, berdasarkan jaringan saraf kotak hitam, dapat menjamin keamanan pengguna. Untuk alasan itu, ia menyukai campuran jaringan saraf plus AI simbolis, aturan kode keras membatasi apa yang bisa dan tidak bisa dikatakan model.

Apa pun pendekatannya, masih banyak pekerjaan yang harus diselesaikan. “Kami bahkan belum hampir menyelesaikan masalah ini,” kata Kiela.


Baca selengkapnya

Leave a Reply

Your email address will not be published. Required fields are marked *