今までは漫画やアニメのように遠い存在のように思えたAIですが、近年ではAIを使った機能が身近になり当たり前のように使う時代になりました。
その中でも、2023年になって急激に話題となった、ChatGPTやStable DiffusionなどはAIに詳しくなくても簡単に使えることから、AIの技術に触れられるきっかけになった人も多いのではないでしょうか。
このようなAIは生成AIと呼ばれ最新のAI技術の一つです。この記事では、生成AIの仕組みについて見ていきましょう。
ぜひ、最新機能でAIに興味を持った方はご覧ください。
生成AI(ジェネレーティブAI)とは?
AIは知っているけれど「生成AI」なんて初めて聞いたという方も多いでしょう。
生成AIは、人間が指示や質問を投げかけるとその内容を解読し、画像や文章でコンテンツを生み出してくれることが特徴です。
その上で、人間の指示やフィードバックから学習を繰り返して精度の高いコンテンツに進化を続けることができます。
使えば使うほどAIが学習して、よりパーソナライズ化された回答が返ってくるのも特徴的だといえます。
基本的なAIとの違い
生成AIは、従来のAIと同じく大量のデータを学習して画像やテキストなどを生成するAIです。
例えば、ChatGPTで小説のシナリオを考えるように指示をした場合、ChatGPT独自で考えてシナリオを出してくれます。
この回答したシナリオがもし恋愛小説だった場合「推理系の小説に変更してください」と指示をすれば、推理系のシナリオに直してくれます。
もっとシナリオが欲しい場合は「あと3つ推理系のシナリオを出してください」と指示をすればもう3パターンのシナリオを出してくれます。
従来のAIは分類や回帰などの予測タスクをすることがほとんどでしたが、人間の指示で画像やテキストなどを生成できるのが大きな違いと言えるでしょう。
生成AIの種類
生成AIとひとくちに言っても、種類は様々です。
ここからは、生成AIと呼ばれるAIの種類をご紹介します。
テキスト生成系AI
テキスト生成系AIは、文字で指示を入力することで、テキストで回答してくれるAIのことです。
主に、ChatGPTやGoogle Bardなどのサービスがテキスト生成系AIを使っています。
「2024年の祝日は何回ありますか」のような単純な質問に対しての答えを生成することができるだけではなく、計算式やプログラミングなどでエラーが表示されたコードを入力することでエラー箇所や正しい計算式を指摘してもらうこともできます。
画像生成系AI
画像生成系AIは、文字で指示を入力することで、指示したイメージに近いオリジナルの画像を生成してくれるAIのことです。
主に、Stable DiffusionやCanvaなどのサービスが画像生成系AIを使っています。
漫画風のイラストはもちろん、本物のようなAIで作られた人間や動物なども生成することができるので、幅広い表現に使えます。
例えば、イラストの背景画像として利用したり、作品のヒントを得たりとデザイン作成において活用することができます。
動画生成系AI
動画生成系AIは、文字で指示を入力することで、オリジナルの動画を生成してくれるAIのことです。
主に、RUNWAYなどのサービスが動画生成系AIを使っていますが、生成AIの中でも難易度が高くまだまだ活用するには難しいといわれています。
現時点では数秒ほどの短い動画生成が限界のため、将来的に長い動画を作成できることでビジネスにも活用できる時代が来る可能性もあります。
文字起こし生成系AI
文字起こし生成系AIは、音声や文字で指示を入力することで、音声を生成することができるAIのことです。
主に、Voicevoxなどのサービスが文字起こし生成系AIを使っています。
例えば、ある一人の声を大量に学習させることで、その人の声質を高精度で再現することができます。
指示した文章を自由に話すことができるため、その人の声を使ってナレーションを行ったり文章の読み上げなども可能になります。
生成AIに用いられるモデル
生成AIに用いられるモデルは複数種類あり、いずれも画像の生成方法が異なり、用途によって異なってきます。
テキスト生成や画像生成など、分野によって使用されるモデルも違うため、AIを使った技術に興味がある方は覚えておくとよいでしょう。
ここからは、代表的なモデルを5つご紹介します。
VAE
VAE(Variational Auto-Encoder)は、画像生成系AIに採用されている生成モデルです。
VAEでは、学習させたイラストの特徴をもとに新たなイラストを生成することができます。
例えば、好きな漫画家のイラストを大量に学習させることで、その漫画家の絵柄に近いイラストが生成されます。
著作権侵害などの観点から、AIに指示して生成したイラストだからと言ってユーザーの自作発言などで問題になっていることから、利便性は高いものの商業化としては好ましくない点もあります。
GAN
GAN(Generative Adversarial Networks)は画像生成系AIに活用される生成モデルです。
VAEと仕組みが異なり、Generator(生成器)とDiscriminator(識別器)の2種類のネットワーク構造で画像を生成していきます。
Generator(生成器)でランダムに画像を生成していき、学習用のDiscriminator(識別器)に近付きながら何度も繰り返して精度を高めていき画像を生成していきます。
複数の顔の画像を取り入れることで、実際にいない架空の人物の画像を生成したり、1つの画像をイラスト風にしたりレトロ風にしたりと別のテイストの画像を生成することも可能です。
拡散モデル
拡散モデルはGANの進化系と言われている生成モデルです。
対象のデータを徐々に劣化させていき、もとになる画像を段階的に復元して再構築することで画像生成を学習していきます。
何度も復元と再構築を繰り返すことによって高精度な画像を生成できます。
この生成AIによって、以前では苦手だった指や耳の表現も自然に作られるようになり、実際の人間に近い画像が生成されるようになりました。
最近では、AIを使って架空のグラビアアイドルやモデルのような綺麗な女性を生成し、フィッシング詐欺やSNSのスパムなどの悪用が問題視されるようになってきています。
GPT-3
GPT-3は、2020年7月にOpenAIが発表した高性能なモデルです。
主に、テキスト生成系AIに活用される生成モデルで、文章の生成、文章の要約、質問への回答、翻訳などが可能です。
文章で指示や質問をすることで、記事や小説を自動的に生成できたり、プログラムのコードを生成することができます。
GPTと呼ばれるモデルはどんどん進化しており、GPT-3の次にもGPT-3.5、GPT-4も登場しています。
GPT-4
GPT-4とは、GPT-3の上位モデルになります。既存のGPTと比較しても、非常に高い言語処理能力に優れており、より精度の高い回答を導くことができます。
GPTと聞いてピンときた方も多いと思いますが、GPT-4はChatGPTに活用されており、まるで人間と会話しているかのようなスムーズなやり取りが可能になりました。
誤字脱字が大幅に減り、複数の指示を含んだ回答にも対応できるため、よりユーザーの満足度を高めることが可能になりました。
生成AIの活用事例
生成AIは、導入している企業も増えているほど、ビジネスでもプライベートでも活躍の場を広げています。
生成AIは今までのAIと比較しても自由度が高く、専門性の高い分野でも活躍できることから、多くの場で活用されています。
では、具体的にどのような場面で生成AIが活用されているのか、事例を見ていきましょう。
①定型業務の効率化
生成AIによって、人間が手動で行っていたことを効率化させることが可能です。
例えば、カスタマーサービスへのクレームや問い合わせの録音データを文字起こしすることによって、スムーズに担当に繋ぐことができたり今後の問い合わせの回答に役立てることができます。
AIを使うことによって、人間の時間が短縮されて作業の効率化につなげることができます。
②会議や打ち合わせの文字起こし
生成AIの文字起こし機能を使って、会議の議事録や打ち合わせのメモに活用することも可能です。
従来であれば、会議の内容は人間がドキュメントにまとめることがほとんどです。
しかし、このことによって会議の内容を聞き逃してしまったり、議事録に残すことに集中してしまい会議に入りきれてなかったりのデメリットを感じる方もあるのではないでしょうか。
生成AIを活用することによって、録音データをテキスト化すればすぐに議事録として保存ができるため、人間の手を使うことは大幅に減るでしょう。
③クリエイティブな提案
生成AIは0から作品を作ることができるのが特徴です。
この特徴を活かして、クリエイティブな作業のヒントを得ることもできます。
例えば、販促ポスターで新しいお菓子の宣伝をしたい場合は「お菓子を食べている子どものイラストを作ってください」という指示を出せばその通りに作成することができます。
ここから子どもを若い女性や夫婦にしたり、背景の色を変えたりと直感的にさまざまなアイデア出しを指示することで、自分のアイデアがまとまる可能性もあるでしょう。
構想に行き詰まったときに、デザイン出しの補助として使う方法もあります。
④素材や画像のコスト削減
生成AIでは、イラストが描けない方や動画が作れない方でも指示をすればイメージ通りの作品ができるのが大きなメリットです。
このことから、有料の画像サイトに登録したりイラストなどを新たに依頼することなく生成AIで素材や画像を作ることができる場合もあります。
無料の生成AIを利用して画像を作成することで、コストを削減できるメリットがあります。
ただし、実際にあるイラストなどを学習していた場合、著作権の侵害に該当する場合もあるため、商業用で利用する場合は慎重に行う必要があるので注意しましょう。
⑤プログラミングのコード生成
精度が高い生成AIの場合、プログラミングのコードを生成することも可能になりました。
代表的な例で言うと、ChatGPTはJavaやC言語、Python、JavaScriptなどのプログラミングのコードを生成することができます。
更には、R言語、MATLABなど数理系に特化した言語にも対応しており、幅広く活用することができるでしょう。
テキストで指示してあげることでコード生成が可能なため、時間短縮ができて作業効率化に繋がります。
生成AIの危険性について
生成AIは便利な反面、自由度が高いことから危険性があることも知っておく必要があります。
例えば、実在する人物の声を使って暴力的な発言や差別的な発言を作成して陥れたり、実在する人物の画像を合成して性的な画像を作成したりと使い方次第でいくらでも悪用ができてしまいます。
そのため、遊びのつもりでも相手を傷付けてしまったり、悪ふざけがエスカレートしてしまいトラブルになったりと精度が高いからこそ注意する必要があります。
仕事や営利目的の場合は注意が必要
仕事や営利目的で生成AIを使う場合はとくに注意が必要です。
サムスンがChatGPTに社内機密のソースコードを流出させたニュースは記憶に新しいと思います。
このようにAIがユーザーの情報を学習することで最終的に他のユーザーに提供されてしまう可能性があるため、仕事で生成AIを利用するときは機密情報など社内に関わる情報は学習させないことを徹底する必要があります。
また、AIが生成した画像を使う場合も注意が必要です。著作権がある画像を学習させることで、二次加工や転載などに該当して著作権の侵害に該当する恐れがあります。
AIが生成したとはいえ、フリー素材でない限りはもとの画像には著作権があります。営利目的のデザインは生成AIが作成した画像を使用今までは漫画やアニメのように遠い存在のように思えたAIですが、近年ではAIを使った機能が身近になり当たり前のように使う時代になりました。しないのが安全だといえます。
AIは、与えられた画像や文章を学習して進化していきます。あくまでネット上のサービスだということを忘れずに利用しましょう。
生成AIは今後も技術の発展が期待できる
ChatGPTやStable Diffusionを始めとする生成AIは、一気にAIが浸透するきっかけになりました。
とくに、画像生成系AIは日々進化を遂げ、1から自在に自然なイラストを作れるようになったほどです。
生成AIは今後もより技術の進化が期待できることは間違いありません、AIが苦手としていたクリエイティブな面もクリアできる時代が訪れる可能性もあるでしょう。
ぜひ今後も生成AIの発展に注目してみてはいかがでしょうか。