過去10年間でAIは爆発的な成長を遂げており、特に人間の文章を解析してもっともらしい文章を返す能力には目を見張るものがありますが、こうした能力はすべて、インターネット上に存在する既存の文章などさまざまなデータを学習した上で構築されたものです。
インターネット上には膨大な量のデータが存在することは間違いないのですが、研究機関のEpoch AIによると、AIはインターネット上のデータを驚くべきスピードで学習し続けており、そのほとんどを食い尽くしてしまう可能性があるとのことです。
Epoch AIは「2028年頃までに、AIモデルの学習に使用されるデータセットのサイズは、インターネット上に存在する文章の総ストックと同じサイズに達する」と予測。これはつまり、2028年頃までにAIは学習データを使い果たしてしまう可能性が高いということを意味します。データセットが不足することに加え、新聞社などのデータ所有者がコンテンツの利用を取り締まり始め、アクセスをさらに厳しくしているのもAI研究者にとってのハードルとなっています。
こうした問題はAI研究者の間でも認知されており、従来のデータセットを使い果たすことで学習のスケーリングが限界に近づくという法則が語られることがあります。データセットの不足を補うため、AI研究者は学習の方法を変更するなどしてAIの性能向上を模索しています。
*記事全文は以下ソースにて
2024年12月16日 17時00分 GIGAZINE
https://gigazine.net/news/20241216-ai-data-running-out/
引用元: ・【IT】ついにAI学習のためのデータが枯渇へ、データセット不足のAI企業は大規模で汎用的なLLMから専門性の高いモデルへ移行か [牛乳トースト★]
学び尽くした割には相応にかしこくなっていない
学習といいつつ統計の延長線上だから効率が悪い
実際やってる
元記事に
>データセットが不足するとAIが新しい情報を取り入れることができなくなり、
>AIの進歩が停滞する可能性がありますが、かといってAIが生成したデータを
>取り込んではデータの信頼性に疑問が生じます。
ってあるのに実際はAIが生成したデータを取り込んでるの?
自分で考えてるんじゃなくて、膨大な量の過去のデータをパクって合成して、さもオリジナルであるかのような無難でそれっぽい回答、作品を返すのが現代のなんちゃってAIだが、
パクる過去データが食いつくされると、どのAIに聞いても同じような答え、作品を返してくるだけになる
パクってる元データが違うからこそ、AIもそれぞれ違う答えを返してきていたが、これからは全部それが同じになってしまう
似非AI屋としてはこれは困る
じゃあもう糞好夢淫やらゴミ政治痴屋より全然役立つな?(笑)