今回は、昨今話題の生成AIについて話したいと思います。
生成AIは、特にChatGPTのような対話型AIや、Stable Diffusionのような画像生成AIが有名です。
生成AIは、音楽など他にも種類があります。今回は生成AIの初歩と、各企業の動向について説明します。
生成AIの種類
生成AIは、次の8カテゴリに分けることができます。
対話型AI
人間の会話をシミュレートできるAI。コンピュータが人間の言葉を理解して処理する自然言語処理と、言葉に対して返答する言葉を生成する技術で成り立つ。
例)ChatGPT, Gemini
文章要約AI
文章を端的にまとめるAI。与えられた文章を解析し重要な部分を特定する自然言語処理と、端的にまとまった文章を生成する技術で成り立つ。
例)QuillBot, ELYZA DIGEST
記事作成AI
キーワードから文章を生成するAI。与えられたキーワードを解析し理解する自然言語処理と、内容を膨らませた文章を生成する技術で成り立つ。
例)Jasper, Catchy
画像生成AI
キーワードから画像を生成するAI。与えられたキーワードを解析し理解する自然言語処理と、キーワードから画像を生成する技術で成り立つ
例)Midjourney, Stable Diffusion, DALL-E
動画生成AI
キーワードから動画を生成するAI。与えられたキーワードを解析し理解する自然言語処理と、キーワードから画像を生成する処理と、前後のフレーム間での関係を保って生成する技術で成り立つ。
例)Runway
音楽生成AI
キーワードから音楽を生成するAI。与えられたキーワードを解析し理解する自然言語処理と、キーワードから音楽を生成する処理と、前後のフレーム間での関係を保って生成する技術で成り立つ。
例)MusicLM
翻訳AI
ある言語の文章を別の言語に翻訳するAI。与えられた文章を解析する自然言語処理と、別の言語を生成する技術で成り立つ。
例)DeepL
コーディングAI
キーワードからプログラミングのソースコードを生成するAI。与えられたキーワードを解析し理解する自然言語処理と、キーワード通りの処理をするソースコードを生成する技術で成り立つ。
例)Github Copilot, Amazon CodeWhisperer
生成AIの問題
生成AIの大きな問題としてHallucination(幻覚)という現象があります。
これはAIが事実と異なる情報を生成し、まるで幻覚を見せられているかのように、AIが尤もらしい嘘をつくことから呼ばれています。
特に文章を生成するAIで顕著で、一見正しいように見えますが一部が嘘の情報だったりします。
私が体験したケースですと、某バンドメンバーを訊ねたところ、4人中は3人の名前は合っていますが1人は別人で、よく見ると各人の経歴もでたらめです。曲名はまあまあ合っていますが、数曲異なっています。
また、Hallucinationは画像生成AIでも発生しますが、画像であればおかしい箇所は見て分かるため嘘を見破るのはまだ可能です。
各社の生成AI
ここでは、生成AIを開発している代表的な企業とAI、パラメータ数を紹介します。
生成AIについては、特にパラメータ数が多い方が大規模で表現力も豊かだと考えられます。(もちろん一概には言えません)
企業名 | AIモデル | パラメータ数 |
OpenAI | GPT-1 | 1.1億 |
GPT-2 | 15億 | |
GPT-3 | 1750億 | |
GPT-3.5 (ChatGPT) | 3550億 | |
GPT-4 | 非公開(推定1兆) | |
PaLM | 5400億 | |
Gemini | 1.6兆 | |
Meta | Meta AI | 70〜650億 |
ソフトバンク | – | 1300億(2023年) 3900億(2024年) 1兆(未定) |
NICT(情報通信研究機構) | ※日本語言語モデル | 400億 |
サイバーエージェント | – | 130億 |
NEC | – | 130億 |
こちらを見ると、OpenAIのGPT-4やGoogleのGeminiが良く見えますが、日本企業でもソフトバンクが頑張っています。
これからの動向
これからますます、生成AIの活用が進んでいきます。
企業は業務の効率化として生成AIの導入を加速させていくと思います。ドキュメントの自動作成もそうですが、私のようなエンジニアとしてはコーディングAIが進むことでシステム開発の作業も短縮されそうだと考えます。
最後に、私個人が特に注目している2つの企業について紹介します。
オムロン
自然言語で指示することが可能なロボットアームを開発中です。
パナソニック
大規模言語モデルで画像認識を高度化しようとしています。