人工知能に関するあらゆるものが、ここ2年間のIT業界の大きなブームでした。ChatGPTをはじめとするサービスに対する当初の熱狂は、今ではより冷静な評価に取って代わられましたが、現時点でこの技術の可能性を真剣に検討していないソフトウェア企業はほとんどありません。
特にマイクロソフトは AI 開発に巨額の投資を行っており、AI を身近なプログラムに統合する方法を実証しています。徐々に、人工知能の助けを借りてタスクを実行する機能がますます多くのアプリケーションに与えられています。
Microsoft は、Large Language Model (LLM) Copilot を独自のアプリおよびブラウザ拡張機能としてリリースしました。
他の企業もアプリにAI機能を組み込んでおり、中には無料で利用できるものもあります。市場には、チャットボットやAI対応検索エンジンが数多く存在しています。
プロフェッショナル分野では、映画や動画にリアルタイムで自動字幕を追加するAI対応ソフトウェアを提供する企業が数多く存在します。しかし、これらのツールはほぼすべて有料です。
この記事では、Microsoft 以外で登場した AI 機能を備えたプログラムとアプリをまとめました。スタンドアロンアプリケーションだけでなく、ブラウザ拡張機能も含まれています。
さらに読む: AI PC革命:知っておくべき18の必須用語
オフィス向けAI

ChatGPT は Web ブラウザーで使用できるだけでなく、製造元の Open AI は AI アプリケーション用の Windows クライアントも提供しています。
オープンAI
Open AI がチャットボット ChatGPT の Windows クライアントをようやくリリースし、Microsoft Store からダウンロードできるようになったことがつい最近発表されました。
ChatGPTはオープンソースプロジェクトであるため、GitHubに専用ページ(github.com/lencx/ChatGPT)があります。Windows用のデスクトップ版も利用可能です。
バージョン番号は1.1で、リリース日は2023年8月です。登録は不要ですが、登録すると質問への回答が改善され、より多くの機能が提供されます。例えば、内部および外部GPT(Generative Pre-trained Transformer)へのアクセスなどです。これにはDall-E画像ジェネレーターも含まれます。
外国語のテキストや文書を他の言語に翻訳することも、オフィス業務における典型的なタスクの一つです。重要な文書は、送信前にスペル、文法、スタイルを修正する必要があることも少なくありません。どちらの場合も、ドイツ企業DeepLのソフトウェアが役立ちます。

DeepLは現在、最高の翻訳プログラムとされています。メーカーは、DeepLとライティング支援ソフトWrite、そしてOCRモジュールを1つのアプリに統合しました。
ディープL
ウェブサイトでは、翻訳機能とライティング支援ツール「DeepL Write」をご利用いただけます。どちらのサービスもニューラルネットワークに基づいており、無料でご利用いただけます。ただし、翻訳は3,000文字までに制限されており、ユーザーは月に最大3件の文書を翻訳用にアップロードできます。
無料登録がない場合、翻訳できるテキストは最大1,500文字までです。DeepLは入力されたテキストを自社のサーバーにアップロードし、ユーザーによる修正内容と合わせて、ニューラルネットワークとアルゴリズムの学習に使用する権利を留保します。
DeepLはウェブ版に加え、Windows、Android、iOS向けのアプリとGoogle Chromeの拡張機能も提供しています。翻訳機能とDeepL Writeに加え、スクリーンショットなどの画像内のテキストを認識し、OCR処理してすぐに翻訳する画像モジュールも搭載されています。
Google Geminiはウェブ版とAndroid版、iOS版のみで利用可能です。ChatGPTと同様に、このチャットボットはテキストと画像の両方を作成し、質問への回答をプレーンテキストで調査できます。
ChatGPTの代替

Google Geminiはウェブ版とAndroid版、iOS版のみで利用可能です。ChatGPTと同様に、このチャットボットはテキストや画像を生成したり、質問への回答を検索したりできます。
鋳造所
ChatGPTは最もよく知られていますが、AIを活用した唯一のチャットボットではありません。様々な企業がOpen AIからこの技術のライセンスを取得し、それをベースにした独自のチャットボットクライアントを提供しています。
唯一の例外は、独自の AI エンジン「Gemini」を開発した Google です。
検索エンジン大手のGeminiは、ウェブサイト上でシンプルな入力画面を提供しており、ユーザーはAIに質問をすることで、事前に定義されたコンテンツに基づいた絵画や写真を作成することができます。GeminiはGoogleの画像生成ツールImagen 3を使用しています。
一方、ハンブルクに拠点を置くNeuroflash社は、同名のチャットボットのエンジンとしてOpen AIを採用しています。このWebベースのアプリは、質問に答えたり、手紙、ブログ、履歴書などのテキストを作成したりします。画像の作成やテキスト編集も可能です。複数の言語に対応していますが、メーカーによると、ドイツ語のテキストに特別に訓練されているため、ドイツ語圏ではChatGPTよりも優位に立っています。
Writesonicのプログラムには、チャットボット「Chatsonic」も搭載されています。これもChatGPTをベースにしていますが、メーカーによると、検索時にはGoogle検索結果も考慮に入れているとのことです。
米国の企業 Anthropic のチャットボット Claude の特徴は、同社の創設者である Open AI の元従業員 2 人によると、安全で人間の価値観に沿ったものであることです。
ClaudeはOpen AI技術を使用していますが、システム関連の弱点や幻覚の可能性について自動的に警告し、自身の限界を指摘します。Claudeは画像生成機能やテキスト修正機能を持たない純粋なチャットボットです。
新しい Windows アプリは claude.ai/download からダウンロードできますが、Android および iOS 用のアプリはしばらく前から提供されています。

アメリカのチャットボット「Perplexity」は質問に答えるだけでなく、情報の入手元も明らかにし、人工知能の助けを借りて情報を処理します。
鋳造所
アメリカのサービスであるPerplexity AIは、チャットボットと検索エンジンを組み合わせたものです。MicrosoftのCopilotアプリと同様に、質問に答えるだけでなく、分析されたソースも表示します。ドイツテレコムはPerplexityと長年提携しており、顧客にPro版の年間無料サブスクリプションと、Magentaアプリ内のチャットボットを提供しています。
最後に、Inflection AIのチャットボット「Pi」は、独自の大規模言語モデル「Inflection-2」を使用しています。Piの特徴は、ユーザーの興味、ニーズ、目標に合わせて具体的な質問をすることです。
このソフトウェアは、情報サービスやテキスト生成ツールというよりも、対話パートナーとしての役割を担っています。注目すべきは、PiはWhatsApp経由でも連絡が取れることです。
AI検索と拡張機能
ユニバーサルチャットボットと密接に関連しているのは、AIを活用した検索エンジンです。この2つの製品カテゴリーを明確に区別することは、しばしば不可能です。例えば、ChatGPTはテキスト入力にもインターネット検索にも適しており、これはGoogle Geminiに特に当てはまります。
一般的に、AI 検索は従来の検索エンジンよりも複雑なクエリを処理し、ユーザーの意図をより正確に認識できるはずです。

Andiは検索エンジンとAIチャットボットのハイブリッドです。このソフトウェアはオンラインソースから情報を引用し、参照先を表示するため、情報を簡単に再確認できます。
IDG
Andi 検索エンジンは Advanced Neural Data Intelligence の略で、専門分野のトピックに関する質問に対して詳細な回答を提供できるという強みを持っています。
ダイアログは検索エンジンウィンドウの中央に表示されます(Andi自体は英語のみを話しますが、他の言語の入力も理解します)。また、選択されたソースも表示されます。サイドバーには、関連情報のある他のページへのリンクとサムネイルが表示されます。
Andiの無料アプリには、検索結果を要約する機能(コメント機能)があります。これはドイツ語でも利用可能で、従来の検索に比べて大きな利点となります。
一方、Duckduckgo検索エンジンはAIチャットを提供しています。検索結果の上にあるアイコンをクリックした後、まずLLMを選択する必要があります。GPT 4o、Claude 3、Llama 3.1、Mixtralから選択し、質問を入力します。
AIチャットは検索結果から回答テキストを生成し、質問と回答の両方を記憶します。ユーザーはその後、具体的な詳細情報を問い合わせることができます。
字幕とライブ翻訳
現在、多くのメーカーがビデオや映画の翻訳と字幕制作に取り組んでいます。例えば、参加者が異なる言語を話す場合など、ビデオ会議ではライブ翻訳が役立ちます。
MicrosoftはすでにTeamsに同様の機能を組み込んでおり、AI機能を活用しています。他の企業では、映画内の音声を分析・翻訳し、字幕や音声合成による人工音声として動画に組み込むソフトウェアを提供しています。
Microsoft は、Live Captions と呼ばれるオーディオ ファイルに対応する機能を Windows 11 24H2 に組み込みましたが、これは Copilot Plus PC でのみ利用できます。
一方、動画の字幕翻訳はウェブ上で無料で利用できます。Captions AIはブラウザ上で動作し、例えば外国語の映画を英語に翻訳してくれる人気のプログラムです。
また、プロモーションビデオの作成、長編動画の短いクリップへの分割、動画への画像、トランジション、サウンドの追加も可能です。Captions AIは主に広告業界向けですが、プライベート動画にも役立ちます。さらに、最新のDeepLとDeepL Voiceはリアルタイム翻訳も可能にします。
Live Captionは全く異なるターゲット層をターゲットとしています。同社はAndroidとiOS向けのアプリを開発しており、近所の会話をリアルタイムで書き起こし、スマートフォンにテキストとして表示します。これは特に聴覚障害者にとって貴重な支援となります。
グラフィックスと画像処理

AI 機能: Cyberlink の Photodirector は、人物の写真を生成し、他の顔をインポートし、その結果を既成の背景の前に配置できます。
IDG
ローマ教皇が白いダウンコートを着用した写真がメディアで話題になって以来、AIを活用した画像編集の可能性が明らかになってきました。サイバーリンク社は、画像生成・編集のためのAI機能を搭載したPhotodirectorをアップグレードしました。
ユーザーはボタン一つでディテールを削除したり、顔を合成したり、人物を別の背景の前に配置したりできます。このプログラムは無料でダウンロードできますが、一部の機能には「クレジット」が必要です。クレジットは100クレジットで18ドルで購入でき、有料版のPhotodirector 365にアップグレードすることもできます。
サイバーリンクは、ビデオおよびオーディオ編集用の AI 対応ツールも提供しています。
この記事はもともと当社の姉妹誌 PC-WELT に掲載され、ドイツ語から翻訳およびローカライズされました。