Bandingkan Di antara Kumpulan Data Pemahaman Pembacaan Mesin Populer
Ini adalah panduan cepat untuk orang-orang yang baru bergabung dengan pasukan Pemahaman Membaca Mesin. Di sini saya akan memberi Anda beberapa saran tentang dataset mana yang harus digunakan.
TENTANG MRC
Mesin pengajaran untuk membaca adalah bagian yang tidak dapat diabaikan dari ‘AI Sejati’, orang-orang membuat kemajuan sejak kebangkitan pembelajaran mendalam, namun, kami bahkan tidak dekat, model canggih masih sulit dikalahkan. anak manusia. Sistem otak kita begitu canggih, sehingga kebanyakan orang yang mengklaim model mereka terinspirasi oleh otak manusia sebenarnya tidak tahu persis bagaimana otak manusia bekerja.
Kemudian orang-orang muncul dengan ide, mari kita mulai dengan melatih mesin untuk melakukan pertanyaan pemahaman bacaan, seperti anak-anak, dan menggunakan keakuratan jawaban pertanyaan untuk secara tidak langsung mewakili bagaimana mesin membaca dan memahami, yang merupakan hal yang cerdas karena kita memerlukan beberapa metrik untuk dievaluasi. Sejak itu, banyak dataset MRC keluar. Namun tentu saja, tidak satupun dari dataset yang ada dapat menyatakan bahwa suatu data dapat melakukan pemahaman membaca sebaik manusia meskipun mendapatkan akurasi 100%, karena semua dataset memiliki bias, dan melakukan menjawab pertanyaan hanyalah sebagian kecil dari pemahaman membaca manusia dan pemikiran.
Saya melihat di Weibo (Twitter China) seseorang mengatakan bahwa Pemahaman Membaca itu sederhana, ini semua tentang perbandingan pasangan kata. Izinkan saya menggunakan beberapa contoh untuk menunjukkan kepada Anda beberapa hal sulit yang menurut saya perbandingan kata (atau bahkan sistem MRC s-o-t-a) akan sulit ditangani.