1: 香味焙煎 ★ 2024/10/13(日) 08:17:42.36 ID:HAk7W1zD9
米AppleのAI研究者らは10月7日(現地時間)、「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」(LLMにおける数学的推論の限界を理解する)という論文を発表した。
この論文は、LLM(大規模言語モデル)が、本当に人間のように論理的に考えて問題を解けるのか、という疑問を検証している。結論としては、LLMは今のところ、表面的なパターンを真似て答えを出しているだけで、真の推論能力は持っていないと主張している。
研究者らは、これらの問題点を検証するために、「GSM-Symbolic」という新しいテスト方法を開発した。これは、LLMの数学的推論能力を評価するためのベンチマークデータセット「GSM8K」を改良し、問題の表現や数字を柔軟に変えられるようにしたもの。また、「GSM-NoOp」という、無関係な情報を含んだ問題集も作成し、LLMの推論能力を評価した。
実験の結果、OpenAIのGPT-4oやo1-previewなどのLLMは、他のLLMと比べて高い性能を示したが、それでもGSM-NoOpのような引っ掛け問題には弱く、真の推論能力を獲得するにはまだ課題があるとしている。
論文では、実験で明らかになった「弱点」を挙げている。
(続きは↓でお読みください)
ITmedia
2024年10月13日 08時00分
https://www.itmedia.co.jp/news/articles/2410/13/news070.html
引用元: ・【AI】「現在のLLMに真の推論は困難」──Appleの研究者らが論文発表 [香味焙煎★]
2: 名無しどんぶらこ 2024/10/13(日) 08:18:35.23 ID:9YXBFq8z0
まぁそうだわな
4: 名無しどんぶらこ 2024/10/13(日) 08:19:40.41 ID:sD9GUceb0
人間も真の推論はしてないよ
5: 名無しどんぶらこ 2024/10/13(日) 08:19:48.49 ID:qQNMtmmz0
なるほどね
6: 名無しどんぶらこ 2024/10/13(日) 08:19:53.45 ID:MZ86x3BN0
AppleはAI開発で完全に後塵を排してるからなあ
7: 警備員[Lv.18] 2024/10/13(日) 08:20:12.53 ID:ZCR7NCe20
道半ば、って感じだよね
8: 名無しどんぶらこ 2024/10/13(日) 08:20:24.91 ID:Ec1N9him0
AIとか言ったってビッグデータを材料に最適解探す参照型でしかないしな
14: 名無しどんぶらこ 2024/10/13(日) 08:23:20.00 ID:wYGwtOzn0
>>8
人間なんかそれすらしてない
データすらない
人間なんかそれすらしてない
データすらない
9: 名無しどんぶらこ 2024/10/13(日) 08:20:31.92 ID:wYGwtOzn0
人間にもない
13: 名無しどんぶらこ 2024/10/13(日) 08:22:58.50 ID:XeIvUHPF0
>>9
ほんとそれ
ほんとそれ
10: 名無しどんぶらこ 2024/10/13(日) 08:21:39.93 ID:WHrUfnwN0
真の推論なんて金儲けにはいらないんだよ
11: 名無しどんぶらこ 2024/10/13(日) 08:22:34.45 ID:QvxGOZYT0
ダメ出しされるとすぐ答えを改めるもんなw
いや正しい答えは正しいのよ
いや正しい答えは正しいのよ
12: 名無しどんぶらこ 2024/10/13(日) 08:22:35.54 ID:AHA/Un9T0
人間に真の推論は困難
15: 名無しどんぶらこ 2024/10/13(日) 08:23:29.67 ID:V4Yu8QQ70
創った人すらAIがどうやって答えを導き出しているのか分からないらしいね