イッサPのつぶやき

イッサPが思うことを書いていくブログです

直近のAI技術動向まとめ

<PR>

たった30日で月5万円の副収入!初心者向けSNSせどり完全ガイド | イッサP | Brain

Brain副業マスターガイド | イッサP | Brain

【0から始める】ChatGPTを活用した自動化ビジネス構築法 | イッサP | Brain

目次

AIの進化は驚異的な速さで進んでおり、毎週新しい発表やアップデートが行われています。

本記事では、直近1週間に話題となったAIに関するニュースをまとめ、どのような技術やサービスが登場しているのかを紹介します。

OpenAI、リアルタイム会話機能を提供する「Realtime API」を発表

OpenAIは新たに「Realtime API」を発表しました。

このAPIは、音声を直接処理し、より自然な音声会話を実現するためのものです。

これにより、ユーザーが音声を通じてAIとリアルタイムで対話することが可能になります。

この技術は、例えば語学学習アプリやカスタマーサポートなどで活用が期待されています。

特に注目すべき点は、リアルタイムAPIが人間のような自然な会話を模倣し、途中で会話が途切れても継続できるという機能です。

これにより、AIはより人間に近い応答を行い、スムーズなやり取りが可能となります。

料金体系については、音声入力1分あたり約8.6円、音声出力が1分あたり約34円と設定されています。

現時点では少々高めの料金ですが、サービスの普及に伴い、今後価格が下がる可能性もあります。

また、OpenAIは今後、画像や動画にも対応する予定で、利用制限も緩和される予定です。

これにより、さらに幅広い用途での活用が期待されます。

MicrosoftWindows 11とCopilotにAI新機能を搭載

Microsoftは、Windows 11およびCopilotにAI機能を強化するアップデートを発表しました。

注目すべき新機能としては、「Copilot Voice」と「リコール機能」があります。

「Copilot Voice」は、自然でスムーズな音声対話を実現する機能で、ユーザーは4種類の声から好みのものを選択できます。

さらに、使い込むほどにユーザーの好みに応じてカスタマイズされていきます。

また、「Copilot Daily」という新機能も追加され、毎朝ニュースや天気予報を要約して読み上げてくれる便利な機能が実装されています。

今後は、リマインダーやスケジュール管理などのパーソナライズ機能も追加される予定です。

「リコール機能」は、ユーザーがPC上で行った行動を記録し、AIの力で検索できるようにするものです。

たとえば、数週間前に見た「白い車の画像」や「先週開いたプレゼン資料」など、曖昧な記憶でもAIが該当するファイルを特定することができます。

この機能の提供は、今年の10月から開始される予定です。

動画生成AI「Pika 1.5」のリリース

次に注目するのは、動画生成AI「Pika 1.5」のリリースです。

今回のアップデートでは、爆発や膨張といった新しいエフェクトが追加され、映画のような滑らかなカメラワークを再現することが可能になりました。

これにより、キャラクターを自然に走らせたりジャンプさせたりと、よりリアルなアニメーションが作成できるようになっています。

この「Pika」はSNSでも話題となっており、無料で利用できる上に、生成される動画のクオリティも非常に高い点が評価されています。

動画制作やコンテンツクリエーションに興味のある方は、ぜひ試してみてください。

小規模で高性能なオープンソースのマルチモーダルAIモデル「Molmo」

オープンソースコミュニティにおいて、非常に高性能なマルチモーダルAIモデル「Molmo」が公開されました。

このモデルは、画像を理解し、画像に関する質問に答えることができるAIで、例えば「この写真に写っているものは何ですか?」といった質問に対して、正確な回答を返します。

Molmoの特徴は、小規模なモデルでありながら、非常に高性能なマルチモーダル処理を実現している点です。

通常、AIの性能はモデルの規模や学習データの量に依存することが多いですが、Molmoは少ない学習データでも高い精度を保つことができます。

特に、データとして使用される画像には詳細な説明が付与されており、この質の高いデータにより、大規模なデータセットを必要としないというのが強みです。

ベンチマークテストでは、MolmoはGPT-4やGeminiといった規模の大きいモデルに匹敵するスコアを記録しており、その性能の高さが証明されています。

Googleの「NotebookLM」がYouTube動画や音声ファイルに対応

Googleが提供する「NotebookLM」も注目のAIツールです。

このサービスでは、ユーザー専用のAIアシスタントを作成し、テキストファイルやPDFの内容を把握し、それに基づいて要約や質問への回答を行うことができます。

今回のアップデートでは、YouTube動画や音声ファイルにも対応し、これまで以上に幅広い形式のコンテンツを扱うことができるようになりました。

たとえば、英語のYouTube動画をアップロードすることで、動画内で使用されている単語の意味や発音を解説するAIアシスタントを作成することが可能です。

ただし、YouTube動画のインポートに関しては音声がある動画のみが対象となるため、音声のない動画は現時点で対応していないことに注意が必要です。

Metaがスマートグラス「Ray-Ban Meta」に搭載するAI機能をアップデート

Metaは、Ray-Banと協力して開発したスマートグラス「Ray-Ban Meta」に搭載されているAI機能のアップデートを発表しました。

このスマートグラスは、AIの力を借りてユーザーの生活をサポートする機能を提供しており、今回のアップデートにより、さらに利便性が向上しています。

以前は「Hey Meta」と話しかけることでしか操作できませんでしたが、今では一度「Hey Meta」と言うだけで、その後の質問にもAIがスムーズに応答してくれるようになりました。

たとえば、「Hey Meta、今日の天気は?」と質問した後に続けて「気温は?」と尋ねても、再度呼びかける必要がありません。

さらに、駐車場の位置を記憶したり、音声でリマインダーを設定したり、WhatsAppやMessengerを通じて音声メッセージを送信することもできるようになりました。

このスマートグラスは現在、アメリカのMetaのオンラインショップで299ドルから販売されていますが、日本での発売時期は未定です。

OpenAI、約9800億円の資金調達を実施

OpenAIは、約9800億円の資金調達を実施しました。

この資金は、AI研究のリーダーシップ強化、計算能力の増強、AIツール開発に充てられる予定です。

今回の資金調達には、AppleNVIDIAMicrosoftなどが参加していましたが、Appleは途中で交渉から撤退しています。

また、ソフトバンクも720億円の出資計画を発表しており、ソフトバンクグループの孫正義氏がAI技術への関心を強めていることがわかります。

孫氏は、AIが人類の知能を超える「ASI(人工超知能)」の実現を目指しており、今回の投資もそのビジョンに基づくものです。

OpenAIは、現在の評価額が約17兆円に達しており、圧倒的な影響力を持っています。

今後もAI業界をリードする存在であり続けるでしょう。

OpenAIのCTOミラ・ムラティ氏が辞任

最後のニュースとして、OpenAIのCTO(最高技術責任者)であるミラ・ムラティ氏が辞任したことが報じられました。

ムラティ氏は、GPT-3やChatGPTなどのAIモデルの開発に貢献し、AI業界において大きな影響を与えてきました。

辞任の理由については、「自己探求のための時間と空間を確保したい」ということで、円満な退職であることが強調されています。

しかし、OpenAIが進めている組織改革が背景にあるのではないかという見方もあります。

OpenAIは、非営利組織として設立されたものの、現在では商業的な活動が増加しており、その方向性に対する異議がムラティ氏の辞任の一因とされています。

まとめ

これらのニュースからもわかるように、AI技術は日々進化を遂げており、私たちの生活やビジネスにおける活用がますます広がっています。

AIに関する最新情報をキャッチアップしながら、その技術をどのように活用するかを考えることが、今後の成長において重要なポイントとなるでしょう。