人工知能技術を用いた多くのプログラムがオープンソースであり、完全に無料であることは偶然ではありません。これは、初期のアプローチが学術界で生まれたものであり、そこでは共同研究とさらなる開発を促進するために、ソフトウェアのフリーライセンスが一般的に行われているためです。
ただし、ここではAIのフレームワークやライブラリについてではなく、ご自身のコンピューターにおける人工知能の具体的かつ有用な応用についてお話します。AIという用語は、ニューラルネットワーク、機械学習、ディープラーニング、自然言語処理など、様々な手法を包含しています。以下のまとめでは、これらすべてのアプローチを網羅しています。
プロモーション
無料AIボイスチェンジャー | EaseUS VoiceWave
このボイスチェンジャーは、コンテンツクリエイター、ゲーム、オンラインチャット、ライブ配信、そしてプライバシーを重視する方など、あらゆる方にとって万能なツールです。注目すべきユニークな機能はリアルタイムプレビューで、変更内容を瞬時に試聴できるため、クリエイティブプロセスを大幅に効率化できます。この素晴らしい無料ボイスチェンジャーで、ぜひインスピレーションを得てください。
無料ダウンロード
さらに読む: AIアートの作り方
モデルは重要だ
パターン認識、機械処理による決定木、タスクの自動化といった様々なアプローチは、既に用意された学習データとモデルに基づいて構築されています。こうしたデータが利用可能であることこそが、今日、有用なAI技術が無料で利用できるソフトウェアとして存在する理由の一つです。
モデルの開発には通常何年もかかり、評価対象となる生データはテラバイト単位になることも珍しくありません。しかし、近年、一般的なPCハードウェアの計算能力の向上に伴い、AIモデルの開発とトレーニングデータの分析が加速し、より小規模な研究チームでも実行できるようになりました。
以下のまとめは、実用的な利点、つまり主に Windows 用のフリー ソフトウェアでのメソッドの実装に関するもので、インストールに高額なコストをかけずにテクノロジがどれだけ進歩したかをよく示しています。
これもオープンソース開発のおかげと言えるでしょう。FacebookとMicrosoftが開発したディープラーニングフレームワーク「Pytorch」は2016年から利用可能で、PythonとC++向けのAPIを備え、主に研究分野やフリーソフトウェアプロジェクトの分野で高い評価を得ています。テスラのオートパイロットなどもPytorchをベースにしています。
2 番目に人気のある無料フレームワークは Tensorflow です。これは Google が提供しており、Google Cloud との緊密な連携を提供するだけでなく、個人使用向けのライブラリも多数提供しています。
ここで紹介するプログラムには、主にアルゴリズムとデータ モデルの接続を通じて、これら 2 つのフレームワークの人工知能が流れ込んでいます。あるいは、これらのプログラムの開発において重要な役割を果たしました。
最終2倍 – 画像サイズを拡大

十分に拡大:最終的な2倍の解像度は、どのCPUとGPUでも動作します。このピクセル化されたグラフィック(左)は、Waifu 2xアルゴリズムによって元のサイズ(右)の4倍に拡大されています。
IDG
ビットマップ画像をピクセル単位で拡大すると、画質が著しく低下します。Final 2xを使えば、ビットマップ画像を拡大しても画質が劣化することはありません。Final 2xは、ニューラルネットワークと付属のモデルを活用することで、画像を拡大し、細部に至るまで滑らかに仕上げます。
Final 2xは、Real Cugan、Real Esrgan、Waifu 2x、SRMDのアルゴリズムを搭載し、最適な結果を得るために画像をスケーリングする4つの方法を提供します。また、ノイズやアーティファクトが目立つJPG形式のピクセル化された写真も大幅に改善できます。
インストール: Final 2xは、Windowsへのインストールが非常に簡単で、すぐに実験を始められるため、当社の便利ツールコレクションの先頭に位置しています。Final 2xで使用されるニューラルネットワークとアルゴリズムは、Nvidia、AMD、Intelのチップセットで動作するため、特別なハードウェア要件はありません。内蔵GPUでも十分です。
しかし、他のAIおよびニューラルネットワークツールと同様に、ここでも同じことが当てはまります。つまり、大容量のRAMが役立ちます。Windowsの場合、開発者はGitHubページで便利なインストーラー「Final2x-windows-x64-setup.exe」(260MB)を提供しており、これを使うと数回クリックするだけでセットアップが完了します。
使い方は以下のとおりです。Final 2xを起動すると、ドラッグ&ドロップで拡大するJPGまたはPNG形式の画像ファイルを受け付ける入力フィールドが表示されます。左下の歯車アイコンをクリックすると、設定ページが開きます。「デバイス」の項目で、計算に使用するCPU/GPUを選択できます(複数選択可能)。
モデルによって画質が決まります。Real-ESRGANアルゴリズムは写真に非常に適しており、Waifu 2xは描画に特化しています。スケーリング係数は「カスタムスケール」フィールドで指定します。また、ノイズ除去効果の高い結果を得るために、TTAオプションを常に有効にすることをお勧めします。
メイン ウィンドウで[開始] をクリックすると計算が開始されます。複雑な画像の場合は計算に数分かかることがあります。
Meshroom – スマートフォン用3Dスキャナー

3 次元の世界へようこそ: Meshroom は、実際のオブジェクトの写真から 3D グリッドを作成し、Blender などの CAD プログラムや 3D モデルでさらに処理できるようにします。
IDG
3Dスキャナーは、レーザーで実物をスキャンし、そのデータからCADやアニメーションプログラムで使用できるファイルを作成します。一見複雑そうに思えますが、実はスマートフォンやデジタルカメラと無料ソフトウェア「Meshroom」を使えば、小規模な作業であれば可能です。Meshroomは、Alicevisionの写真測量ライブラリをベースにしており、オープンソースライセンスでWindows(64ビット)で利用可能です。画像シリーズの分析から、撮影した物体の形状を計算し、グリッドファイルを作成します。
インストール:計算にはCUDAインターフェースが必要なため、MeshroomはCUDA 2.0以上に対応したNVIDIAグラフィックカードが必要です。以下の表は、該当するカードを示しています。NVIDIAのMicrosoft Windows用CUDAドライバーのダウンロードサイズは3GBです。
Nvidiaハードウェアのセットアップが完了したら、Meshroom(1.3GB)をインストールできます。AMDグラフィックカードとIntelチップセットでは、Meshroomは精度の低いスケッチモードでのみ動作します。計算に忍耐力のある方は、Cudaを使用しないMeshroomの代替バージョンを試してみることができます。
手順は以下のとおりです。スキャン対象物を撮影する際は、できるだけ何もない部屋で被写体から離れた場所にいることが重要です。両側から、被写界深度が高く、ブレのない様々な角度で数十枚の写真を撮影する必要があります。10メガピクセルを超える画像サイズは使用しないことが重要です。その後、ファイルをMeshroomの左側にある「画像」エリアにドラッグして計算を開始します。計算にはNvidiaカードでも数時間かかります。
メッシュをさらに最適化するには、無料プログラム Blender などの 3D ソフトウェアの使用をお勧めします。
Kdenlive – AIによるオブジェクト追跡

オブジェクトの追跡: ビデオエディターの新しいバージョンのモーショントラッカー「DaSIAM」は KITechniques と連携し、たとえば、ぼかしによって顔を認識できないようにすることができます。
IDG
この無料動画編集ソフトは、2年前からAIによる補助機能を搭載しています。モーショントラッキング、つまり動画クリップ内の自動オブジェクトトラッキング機能は、認識したモチーフにマスクを適用し、ターゲットエフェクトを適用することができます。例えば、動画クリップ内の特定のオブジェクトをピクセル化したい場合などに便利です。
インストール: Kdenliveは、Windows 64ビット版用のオープンソースのセットアップファイル(100MB)として提供されているため、簡単にインストールできます。さらに、モーショントラッキングアルゴリズム用のモデルデータが追加されました。これらは、Kdenlive開発者から提供された3つのファイル「dasiamrpn_kernel_cls1.onnx」、「dasiamrpn_kernel_r1.onnx」、「dasiamrpn_model.onnx」です。これら3つのファイルはすべて、Kdenliveのインストールディレクトリに配置する必要があります。これを行うには、Windowsエクスプローラーのアドレスバーに「%AppData%/kdenlive」と入力し、「opencvmodels」という新しいサブフォルダを作成します。ダウンロードした3つのモデルファイルは、そこに配置されます。
やり方は次のとおりです。Kdenliveでは、モーショントラッカーはエフェクトとして利用できます。使用するには、左上のリストからインポートしたクリップを下のタイムラインに配置し、中央のメニューバーの[エフェクト]タブに切り替えて、 [アルファ、マスク、キーイング] - [モーショントラッカー]を選択します。エフェクトを目的のクリップにドラッグすると、エフェクトの設定が開き、プレビューウィンドウに赤い四角が表示されます。設定では、トラッカーアルゴリズムとしてDaSIAMタイプを選択する必要があります。タイムラインで最初のフレームに移動し、オブジェクトの周囲に赤い選択フレームを配置して、[分析]をクリックすると、オブジェクトの周囲のキーフレームが計算されます。顔などのピクセル化もすぐに選択できます。
Spleeter – 音楽をトラックに分割

巧みに分解: Spleeter は、AI と広範なモデルを使用して MP3 形式の音楽ファイルを個別の楽器のトラックに分解するコマンドライン ツールです。
IDG
こうして、ミックス済みの楽曲は再び個別のトラックへと生まれ変わります。AIツール「Spleeter」は、2年前に初めて発表されて以来、既に大きな注目を集めています。このツールは、事前学習済みのモデルを用いて、MP3形式の音楽を2つ、4つ、または5つの個別のトラックに分割できます。
Spleeterは、ボーカル、ベース、ドラム、リズムセクションなどのカテゴリーを認識します。このコマンドラインツールは、AIライブラリTensorflowを使用して楽曲内のデータストリームを分析し、エンコーダFfmpegを使用して分離されたトラックを個別のMP3ファイルに分離します。
AIツールとモデルの学習データは、フランスのストリーミングサービスDeezerから提供されており、同社は膨大な数のポップミュージックのライセンスカタログをパターン認識の分析材料として使用することを許可されています。この学習データは個人利用も無料でご利用いただけますが、別途インストールが必要です。
インストール: Spleeterは人気が高いため、Windows版も提供されています。これにより、Pythonプログラムコンポーネントを個別にインストールする手間が省けます。このWindows版は、パッケージマネージャー「Chocolately」から入手できます。Chocolatelyは、まずインストールが必要です。インストールするには、まずスタートメニューからWindows Power Shellを起動します。Power Shellは、右クリックして「管理者として実行」を選択すると開きます。このコマンドラインで、以下のコマンドを実行します。
Set-ExecutionPolicy AllSigned
エントリ「j」で実行権限を有効にします。次に、コマンド:
Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://chocolatey.org/install.ps1'))
Windows パッケージ マネージャー Chocolately をインストールします。
次に、パッケージ マネージャーは次の入力で Powershell に Spleeter をインストールできます。
choco install spleeter-msvc-exe
次に、トレーニングモデルのインストールが必要です。そのためには、新しく作成したディレクトリ「C:\ProgramData\chocolatey\libspleeter\msvc\exetoolsmodels」にあるバッチファイル「download_models.bat」を使用します。このファイルはPowerShellからも呼び出され、約1.2GBのデータをダウンロードします。これは決して小さな量ではありません。最後に、Spleeterを実行するには、MicrosoftのVisual C++再頒布可能パッケージのインストールが必要です。
やり方は次のとおりです 。すべての手順が完了したら、PowerShellまたはコマンドプロンプトで続行できます。呼び出し:
spleeter.exe datei.mp3
現在のディレクトリにある既存のMP3ファイルをボーカルと楽器に分割し、個別のMP3ファイルとしてフォルダに配置します。これは最もシンプルなアプリケーション例であり、平均的な性能のPCであれば数秒で計算できます。ただし、一般的なポップミュージックでは、Spleeterはドラムやベースなど、分離すべき追加トラックを認識します。
spleeter.exe -m 4stems datei.mp3
この例では、Spleeterはパターン認識を用いて、楽曲内の4つのトラック(ボーカル、ベース、ドラム、リズム/伴奏)を検索します。これらのトラックが個別のMP3ファイルとして作業ディレクトリに書き込まれるまで、計算には少し時間がかかります。

オーディオ エディタ Audacity で作成されたトラックを見てみましょう。Spleeter は楽器とボーカルを非常に正確に分離しますが、その過程で高周波数をカットします。
IDG
手元の楽曲の伴奏に非常に独特な特徴がある場合、Spleeter はこのコマンドを使用して伴奏を 5 つのトラックに分割することもできます。これは、ボーカル、ベース、ドラム、ピアノ、リズム セクションに最適です。
spleeter.exe -m 5stems datei.mp3
巧みに分解された Spleeter は、AI と広範なモデリングを使用して MP3 形式の音楽ファイルを個別の楽器を含む個別のトラックに分割するコマンドライン ツールです。
Microsoft Edge – 画像の強化
マイクロソフトは、自社のデータセンターを基盤として、日常的なプログラムに可能な限り多くのAI技術を搭載することに取り組んでいます。長期的に見て何が有用かはまだ分かりませんが、Edgeウェブブラウザの新機能は、画像や動画を自動的に拡大表示することで、高解像度の画面で非常に優れた結果をもたらすことは間違いありません。
インストール: Microsoft EdgeはWindowsに既にプリインストールされていますが、画像補正のためのAI技術はEdgeの開発者版でのみ利用可能です。このMicrosoftブラウザのパブリックプレビュー版のセットアップファイルは入手可能です。
仕組みは次のようになります。ブラウザは画像補正を自身のコンピュータ上でローカルに行うのではなく、画像をMicrosoftのサーバーに送信し、そこで画像が外挿されてブラウザに返されます。つまり、MicrosoftはユーザーがWeb上でどの画像を取得するかを把握し、評価することになります。そのため、このAIオプションはデフォルトでは有効化されていません。この機能は、edge://settings/privacy/enhanceImages のアドレスにあるオプションページで、表示されるスイッチを介して有効化する必要があります。
この機能は、個々のウェブサイトごとに個別に有効化することもできます。Microsoft Edgeのアルファ版「Canary」でのみAI機能が利用可能で、独自のGPUを活用して最大720pの解像度までのぼやけた動画を改善します。EdgeのこのAI機能には、AMDまたはNvidiaの最新のグラフィックチップと適切な専用ドライバーが必要です。また、データはMicrosoftのサーバーに送信されません。
Vosk – AI による音声認識

音声から字幕へ:この例では、VoskにMP4形式の英語YouTube動画の音声トラックを認識させ、SRTファイルを生成します。
IDG
録音された音声からきれいな書き起こしを実現するのは、今日ではそう遠い未来ではありません。音声認識エンジンKaldiをベースとしたAIフレームワークVoskは、ジョンズ・ホプキンス大学のオープンソースプロジェクトです。
インストール: WindowsではVoskを使用するにはPython 3.11が必要です。インストール中に、 「PythonをPATHに追加する」チェックボックスをオンにする必要があります。コマンドプロンプトで、以下の2つのコマンドを実行してください。
pip install ffmpeg
pip install vosk
Voskの前提条件をインストールします。次に、エンコーダ/デコーダーFfmpegを「ffmpeg-git-essentials.7z」ファイル形式でインストールします。アーカイブの内容は新しく作成されたディレクトリ「C:\Program Files\ffmpeg」に配置され、ファイル「ffmpeg.exe」はサブフォルダ「bin」に配置されます。次に、パス「C:\Program Files\ffmpeg|bin」をWindows環境変数「Path」に追加する必要があります。これは、Windowsアイコン > 設定 > システム > 詳細システム設定 > 環境変数 > Path > 編集 > 新規から実行できます。
やり方は次のとおりです。次に、Githubウェブサイト(https://github.com/alphacep/vosk-api)にアクセスし、「Code」→「Download ZIP」からサンプルスクリプトをダウンロードします。任意のディレクトリに解凍してください。「pythonvosktranscriber」サブフォルダ内に、サンプルスクリプト「transcriber.py」があります。以下の呼び出しで実行します。
vosk-transcriber -l en-us -i test.mp4 -t srt -o englisch.srt
タイムスタンプ付きの音声認識により、動画ファイル「test.mp4」から字幕ファイル「english.srt」を作成します。スクリプトは適切な言語モデルを自動的にダウンロードします。完成したファイルは、他の翻訳プログラムでさらに処理して、別の言語の字幕を作成できます。
Digikam – 写真の顔認識

Digikam は顔を認識します。スキャンされた写真コレクションの画像から、写真管理によってローカルの人物データベースが作成され、人物のタグ付けと検索が可能になります。
IDG
Digikamは、15年以上にわたり継続的に開発されてきた、大規模な写真コレクションをデータベースで管理するプログラムです。元々はLinux向けに開発され、Windowsにも定期的に移植されています。これは、Digikamの機能が充実しているためです。アルバム、タグ、キーワードによる写真の並べ替えや分類に加え、高度な並べ替えオプションも備えています。顔認識と撮影画像の画質自動評価は、AIを基盤とした写真管理の2つの新機能です。
インストール: Digikamは、セットアッププログラム(114MB)を介して64ビットWindowsに簡単にインストールできます。インストールプログラムは、セットアップに必要なデフォルト設定についていくつかの詳細を尋ねます。Digikamの最初の呼び出し後、プログラムは自動的に、付属の顔認識機能に必要なAIモデルデータのダウンロードを提案します。これは約420MBです。
仕組みはこうです。Digikamはバージョン2.0以降、ニューラルネットワークに基づく画像の顔認識の実験を行ってきました。しかし、このAI技術がDigikamで実際にその性能を発揮できるようになったのは、バージョン7.2以降です。写真を開くと、画像ディスプレイにプラス記号が付いた人物のシンボルが表示されます。これを使って、選択範囲で顔をマークし、名前を付けることができます。
同じ人物が写っている写真をさらに数枚選び、表示されたリストから名前を選択します。その後、メニュー項目「検索 > 人物」から、写真コレクション全体から同じ人物を検索できます。
Hugin – 写真シリーズからのパノラマ

パターン認識によって写真シリーズを自動的に合成します。Huginは隣接する一連の写真から風景画像またはパノラマ画像を生成します。ここで表示されるコントロールポイントは、この処理に役立ちます。
IDG
退屈な画像処理に費やす時間を大幅に削減し、風景写真に全く新しい表現を可能にする写真ツールがもう一つあります。Huginは、一枚一枚の画像を重なり合わせ、パノラマ写真を作成するプログラムです。パノラマ写真は、ドラマチックな雰囲気を捉える風景写真において特に魅力的です。スマートフォンアプリでも数年前から同様の機能を実現しています。しかし、Huginでは、結果を正確にコントロールでき、個々の画像を縦に並べることもできます。
インストール: HuginはWindowsプログラムです。ZIPアーカイブを任意のフォルダに解凍するだけです。実行ファイルは「bin」サブフォルダ内のhugin.exeです。
やり方は次のとおりです。Huginは上級ユーザー向けのツールです。プログラムのすべての機能を使いこなせるようになるまで、長時間の実験をためらう必要はありません。まずは、 「画像」タブに2枚の個別の画像を追加した小さなパノラマから始めることをお勧めします。良好な結果を得るには、個々の写真のメタデータから焦点距離を手動で追加する必要があります。同じ名前のタブを使用して、重なり合う画像間にコントロールポイントを追加すると、結果が大幅に改善されます。
Subsync – 字幕を同期

ビデオに合わせて字幕ファイルのタイムコードを計算します。Subsync は、統合された Python モジュール Pocketsphinx を介して音声認識を使用し、指定されたビデオファイルを分析します。
IDG
映画ファンは、吹き替えなしのオリジナル版の映画やドラマを好みます。それでも字幕は役に立ちますし、知らない言語を話す人にとっては必須です。
opensubtitles.orgのようなウェブサイトは、VLCなどのメディアプレーヤーで再生できる形式で、ドラマや映画の字幕を提供しています。ここで難しいのは、手元の動画ファイルと同期して再生される適切な字幕ファイルを見つけることです。字幕が映画のセリフと一致していなければ、映画を楽しむこともままなりません。
無料ツール Subsync はこれを修正できます。音声認識と人工知能を使用して、字幕ファイルとビデオ ファイルを同期します。
インストール:ここでも、コマンドラインでの長い操作は必要ありません。プロジェクトのウェブサイト(https://github.com/sc0ty/subsync/releases)には、インストーラーと、64ビット版を含むすべてのWindowsバージョンに対応したポータブル版(無料、42MB)が用意されています。
この EXE ファイルを呼び出すと、プログラムがサブフォルダーに解凍され、その中にプログラム ファイルが格納されます。
手順は次のとおりです。プログラムインターフェースの上部にある「字幕」フィールドにSRT形式の字幕ファイルへのパスを入力し、その横にファイルの言語を入力します。その下の「参照」フィールドにビデオファイルを入力し、その横にある言語を選択します。
[開始]をクリックすると、Subsync は選択した言語に適した辞書ファイル(数十メガバイト)をダウンロードします。
その後、見つかった一致に基づいて同期が開始され、SubsyncはSRTファイルのタイムスタンプを書き換えてこれを実行します。
この記事はドイツ語から英語に翻訳され、元々はpcwelt.deに掲載されていました。
この記事はもともと当社の姉妹誌 PC-WELT に掲載され、ドイツ語から翻訳およびローカライズされました。