【2024年版】生成AIについて学ぼう!各社の最新動向調査

スポンサーリンク

今回は、昨今話題の生成AIについて話したいと思います。

生成AIは、特にChatGPTのような対話型AIや、Stable Diffusionのような画像生成AIが有名です。
生成AIは、音楽など他にも種類があります。今回は生成AIの初歩と、各企業の動向について説明します。

スポンサーリンク

生成AIの種類

生成AIは、次の8カテゴリに分けることができます。

対話型AI

人間の会話をシミュレートできるAI。コンピュータが人間の言葉を理解して処理する自然言語処理と、言葉に対して返答する言葉を生成する技術で成り立つ。
例)ChatGPT, Gemini

文章要約AI

文章を端的にまとめるAI。与えられた文章を解析し重要な部分を特定する自然言語処理と、端的にまとまった文章を生成する技術で成り立つ。
例)QuillBot, ELYZA DIGEST

記事作成AI

キーワードから文章を生成するAI。与えられたキーワードを解析し理解する自然言語処理と、内容を膨らませた文章を生成する技術で成り立つ。
例)Jasper, Catchy

画像生成AI

キーワードから画像を生成するAI。与えられたキーワードを解析し理解する自然言語処理と、キーワードから画像を生成する技術で成り立つ
例)Midjourney, Stable Diffusion, DALL-E

動画生成AI

キーワードから動画を生成するAI。与えられたキーワードを解析し理解する自然言語処理と、キーワードから画像を生成する処理と、前後のフレーム間での関係を保って生成する技術で成り立つ。
例)Runway

音楽生成AI

キーワードから音楽を生成するAI。与えられたキーワードを解析し理解する自然言語処理と、キーワードから音楽を生成する処理と、前後のフレーム間での関係を保って生成する技術で成り立つ。
例)MusicLM

翻訳AI

ある言語の文章を別の言語に翻訳するAI。与えられた文章を解析する自然言語処理と、別の言語を生成する技術で成り立つ。
例)DeepL

コーディングAI

キーワードからプログラミングのソースコードを生成するAI。与えられたキーワードを解析し理解する自然言語処理と、キーワード通りの処理をするソースコードを生成する技術で成り立つ。
例)Github Copilot, Amazon CodeWhisperer

生成AIの問題

生成AIの大きな問題としてHallucination(幻覚)という現象があります。

これはAIが事実と異なる情報を生成し、まるで幻覚を見せられているかのように、AIが尤もらしい嘘をつくことから呼ばれています。

特に文章を生成するAIで顕著で、一見正しいように見えますが一部が嘘の情報だったりします。
私が体験したケースですと、某バンドメンバーを訊ねたところ、4人中は3人の名前は合っていますが1人は別人で、よく見ると各人の経歴もでたらめです。曲名はまあまあ合っていますが、数曲異なっています。

また、Hallucinationは画像生成AIでも発生しますが、画像であればおかしい箇所は見て分かるため嘘を見破るのはまだ可能です。

各社の生成AI

ここでは、生成AIを開発している代表的な企業とAI、パラメータ数を紹介します。

生成AIについては、特にパラメータ数が多い方が大規模で表現力も豊かだと考えられます。(もちろん一概には言えません)

企業名AIモデルパラメータ数
OpenAIGPT-11.1億
GPT-215億
GPT-31750億
GPT-3.5 (ChatGPT)3550億
GPT-4非公開(推定1兆)
GooglePaLM5400億
Gemini1.6兆
MetaMeta AI70〜650億
ソフトバンク1300億(2023年)
3900億(2024年)
1兆(未定)
NICT(情報通信研究機構)※日本語言語モデル400億
サイバーエージェント130億
NEC130億

こちらを見ると、OpenAIのGPT-4やGoogleのGeminiが良く見えますが、日本企業でもソフトバンクが頑張っています。

これからの動向

これからますます、生成AIの活用が進んでいきます。

企業は業務の効率化として生成AIの導入を加速させていくと思います。ドキュメントの自動作成もそうですが、私のようなエンジニアとしてはコーディングAIが進むことでシステム開発の作業も短縮されそうだと考えます。

最後に、私個人が特に注目している2つの企業について紹介します。

オムロン

自然言語で指示することが可能なロボットアームを開発中です。

AIの可能性を生産現場で実現 | オムロン | EDGE&LINK 切り拓く、未来を創る。
チャットボット「ChatGPT」のようなコンシューマー向けアプリケーションが発表されたことを受け、職場向けAIを求める声が高まっています。その陰に隠れていますが、生産現場でのAIには大きな可能性があり、より大きな期待が持てそうな見通しさえあります。大規模言語モデルやAI画像ジェネレーターは、小説をはじめ、スプレッドシー...
パナソニック

大規模言語モデルで画像認識を高度化しようとしています。

パナソニックHD、階層的な画像認識を実現するマルチモーダル基盤モデルを開発 | 技術・研究開発 | 技術・研究開発 | プレスリリース
パナソニック ホールディングス株式会社は、大規模言語モデルの事前知識を活用することで、任意のテキスト入力に応じたセグメンテーションタスクを遂行できる画像認識向け汎用基盤モデルをカリフォルニア大学バークレー校と共同開発しました。
タイトルとURLをコピーしました