Situs Wilmartoto – Mpathic, sebuah startup asal Seattle, baru saja meluncurkan mPACT, sebuah alat evaluasi yang dirancang untuk menguji kinerja model kecerdasan buatan (AI) dalam menangani percakapan berisiko tinggi. Alat ini memberikan penilaian menyeluruh terhadap bagaimana model-model terkemuka, seperti Claude, ChatGPT, dan Gemini, menanggapi situasi yang terkait dengan risiko bunuh diri, gangguan makan, dan penyebaran informasi yang salah.
Dalam rilisnya pada hari Selasa, Mpathic menunjukkan bahwa meskipun model AI telah meningkat dalam mendeteksi tanda-tanda krisis, banyak dari mereka masih kurang dalam memberikan respons yang memadai dalam situasi darurat. Grin Lord, CEO Mpathic dan seorang psikolog bersertifikat, menekankan bahwa penting untuk memahami nuansa perilaku yang tidak selalu diungkapkan secara langsung oleh individu yang berisiko.
Benchmark ini mengungkapkan bahwa risiko bunuh diri menjadi area dengan kinerja terbaik di antara model-model yang diuji, dengan Claude Sonnet 4.5 meraih skor tertinggi dalam hal keselarasan klinis. Namun, tantangan lain muncul terkait gangguan makan, di mana semua model menunjukkan kinerja yang kurang baik. Ini disebabkan oleh cara gangguan makan sering kali dinyatakan secara tidak langsung, membuatnya sulit untuk diidentifikasi oleh AI.
Sementara itu, dalam menghadapi masalah penyebaran informasi yang salah, model-model tampak kesulitan dalam melawan keyakinan yang meragukan, sering kali memperkuat asumsi yang keliru dalam percakapan yang panjang. Mpathic berkomitmen untuk meningkatkan transparansi dan akuntabilitas dalam perilaku model AI, dengan harapan dapat menurunkan risiko perilaku berbahaya di masa depan.
Mpathic, yang didirikan pada 2021, awalnya fokus pada komunikasi empatik namun telah beralih ke keselamatan AI, bekerjasama dengan pengembang model untuk mengurangi risiko di berbagai bidang, termasuk kesehatan mental dan dukungan pelanggan. Dalam meningkatkan kapasitasnya, Mpathic baru-baru ini berhasil mengumpulkan dana sebesar 15 juta dolar pada 2025 dari Foundry VC.

