Beberapa game era 1980-an, seperti Montezuma’s Revenge, Pitfall, dan Freeway, sukses dimainkan oleh kecerdasan buatan atau artificial intelligence (AI).
Menurut pencipta AI itu, keberhasilan tersebut kelak dapat dimanfaatkan untuk navigasi robot pada dunia nyata, seperti menghadapi bencana.
Untuk mengujinya, Adrien Ecoffet bersama timnya dari Uber AI Labs di San Francisco, California, AS, memberikan 11 game produksi Attari –termasuk tiga game yang disebutkan di atas– sebagai rintangan yang harus dihadapi. Robot itu juga harus bisa menavigasikan dirinya secara optimal agar sampai pada tujuan dan sasarannya.
Pada percobaan tersebut, para peneliti awalnya mengalami kegagalan dalam pengembangannya. Sebab AI itu belum mampu memecahkan game-game tersebut karena dunia petualangan bebas yang kompleks.
Tapi melalui pengembangan dan kemampuan AI untuk belajar, akhirnya dapat menyelesaikan tugas dengan baik. Pembelajaran bagi teknologi itu juga melibatkan pemberian penghargaan atas keberhasilan melewati rintangan di setiap permainan.
Pembelajaran yang menyertakan penghargaan itu merupakan pendekatan yang sangat jarang diaplikasikan. Sehingga, sulit bagi sistem AI untuk mencapai tujuannya, dan mengetahui dirinya gagal atau berhasil menghadapi masalah.
Pada kasusnya, ketika robot harus menghadapi serangkaian permainan yang kompleks untuk mencapai lokasi yang sudah ditentukan dalam game, robot tidak menerima feed back terkait banyak langkah individu yang harus diambil di sepanjang jalan. Hal ini serupa juga bila penghargaan diberikan di akhir permainan.
Maka kemudian para peneliti memadatkan rentang waktu pemberian penghargaan, yakni pada setiap level. Tetapi di sisi lain di tahap pengembangannya, pendekatan seperti ini sempat membuat robot itu bertindak gegabah menuju tujuannya, dan gagal menghindari bahaya yang menghalangi.
Mereka menulis, satu-satunya cara untuk mengatasinya adalah dengan membuat robot itu dapat secara aktif mengenali lingkungannya terlebih dahulu. Namun, mereka memaparkan terdapat dua masalah utama yang menghalangi kemampuan algoritma sebelumnya untuk menjelajah.
Pertama, para peneliti menyebutnya sebagai ‘kemandirian’, terjadi ketika sistem itu dapat menganalisa area yang telah diabaikan untuk dijelajah. Saat robot ada di pertigaan jalan, misalnya, ia harus memilih satu jalan dan mengacuhkan yang lainnya.
Kemampuan kemandiriannya dalam menjalankan tugas saat dikembangkan, mengacu pada ketidakmampuannya untuk mengingat kembali bahwa terdapat jalur alternatif yang masih bisa digunakan.
Masalah kedua, meski AI dapat mengingat peluang yang terabaikan, ia telah keluar jalur. Yakni, ia membiarkan dirinya terdorong pada tindakan menjelajahi satu jalan, meski tahu bahwa dirinya keluar dari jalur yang benar.
Daripada kembali ke pertigaan, ia malah menyelidiki setiap sisi yang ditemui di sepanjang jalan, oleh karena itu tidak pernah berhasil.
Para peneliti pun membuat rentetan algoritma yang mereka sebut dengan Go-Explore. Sistem algoritma ini bekerja dengan terus-menerus mengarsipkan semua keadaan yang ditemuinya. Sehingga ia juga dapat mengingat adanya jalur yang terabaikan saat ia menentukan salah satunya.
Robot itu kemudian dapat segera kembali ke salah satu dari kondisi untuk ‘keselamatannya’ ini. Dengan itu, ia dapat mengatasi masalah kemandirian dan keluar dari jalur.
Dalam laporan mereka, efisiensi Go-Explore dapat menyelesaikan masalah dengan keakuratan hampir 100%. Pada proses kerjanya, algoritma itu mempelajari setiap langkah dan dapat menentukan keefisienan dalam pemilihan jalan yang acak.
Kemampuan untuk menentukan keputusannya itu teruji lewat game Montezuma’s Revenge dan Pitfall yang merupakan penggambaran rintangan yang membutuhkan pemikiran matang.
Hasilnya, rata-rata skor game Pitfall yang diperoleh robot itu sebesar 102.571, cukup dekat dengan angka maksimal game itu, 112.000. Sedangkan pada game Montezuma’s Revenge berhasil menyentuh skor 1,7 juta, melewati rekor dunia yang diciptakan manusia, dengan skor 1,2 juta. (Rio/Red)