ダークモードに対応しました。(切替えは右下のスイッチで)

AIコンテンツエンハンス「スタティック」(機能概要編)

スタティック

フォートトークのAI機能AIコンテンツエンハンス」には、以下の4つがあります。

スタティック

コグニティブリサーチラボの独自AI使用で、API設定不要。

インタラクティブ

Open AIのAPIキーを使用。

ユニバーサル

Google GeminiのAPIキーを使用。

プレミアム

独自AI使用の有料プレミアムコンテンツ変換機能。API設定不要。

この記事では、一番上の「スタティック」各機能概要を紹介をします。

ニャワ

インタラクティブについては、以下の記事をご覧くださいにゃ

目次

「AIコンテンツエンハンス – スタティック」の表示方法

「スタティック」を利用するには、「追加機能 > AIコンテンツエンハンス – スタティック」を選択します。

すると「スタティック」の項目が表示されます。

「AIコンテンツエンハンス – スタティック」には、現在40以上の機能があり、全体の把握がしづらくなっています。

そこで各機能を大ざっぱにイメージできるよう、一言で説明するリストを作ってみました。

各機能を一言で説明リスト
(クリックで表示)

では、以下に「スタティック」の各機能を紹介していきます。

Interactive AI Companions

Natural Cognitiveチャット

誰でも気軽に使えるAIチャットです。様々な質問に対し明晰に答えてくれます。

「Natural Cognitiveチャット」の使い方は以下の記事をご覧ください。

Image Conversion

ここには画像処理関連の機能があります。

img2img

初期の頃にリリースされた、各種画像処理機能がここに集められています。

この img2img には、以下のような画像処理機能があります。

  • 顔写真アニメ化
  • 顔写真アニメ化2
  • 顔写真アバター化
  • 肖像画
  • 風景アニメ化
  • スタイル転送
  • 超解像
  • 超解像+肖像画
  • 背景変更
  • イラスト、アニメのスケッチ
  • 美肌
  • 暗い写真を補正

img2img は機能が多いため、詳細は以下の記事をご覧下さい。

セグメントフレックス

画像内の要素を色で区分け(セグメント)する機能です。

セグメント方法は、「点で指定」「左上と右下の点で矩形を指定」「テキストを入力」「全領域」の4つから選べます。

イメージインスクリプター

画像からテキストを抽出する機能です。

イメージキャプショニファイ

画像を解析し、その内容を文章で表示する機能です。

ビジョンアンサー

画像の内容について質問すると、短い回答が返ってくる機能です。

コグニティブビジョン

画像の詳細な内容を文章で提示する機能です。

個人を特定できる情報が含まれる場合は、その点について触れないなど、プライバシー配慮もなされています。

text2img

プロンプトの内容に合った画像が生成される機能です。プロンプトは英語で入力します。

「text2img」の利用には、iPhone ProやMac等のスペックが高い機種が必要です。

アニメーションジェン

プロンプトの内容から、ショート動画を生成する機能です。

フェイスフュージョン

顔画像とプロンプトから、新しい人物写真を生成する機能です。

元の画像
生成された動画

アニメイズフュージョン

人物画像とプロンプトから、新しい人物絵画やイラストを生成する機能です。

元の画像
生成された動画

フレームフロー

静止画からショート動画を自動で生成する機能です。

タイトルは動画の内容には反映されません。(自分用の覚え書きです)

元の画像
生成された動画

ビジョンクリエーター

テキストの内容に沿った画像として生成する機能です。多言語に対応しています。

イマジンアート

プロンプトの内容から画像を生成する機能です。

モーフマジック

選択した一方の画像から、他方の画像へと変化するモーフィング動画を生成する機能です。

元の2つの画像
生成された動画

デプスジェン3D

テキスト指示あるいは選択画像から、深度マップ(depth map)を生成する機能です。

深度マップは手前の要素が白く、奥にある要素が黒く表示されるものです。

深度マップを利用すると、立体感や奥行きのある画像を作成できます。

AviUtlにて作成

ピクセルウィーバー3d

2次元の画像から、3次元モデルを生成する機能です。

作成したモデルは、iOSのクイックルックや他のARアプリ等で利用できます。

元の画像
モデルの360°ビュー
モデルを現実世界に配置

無償利用は当分の期間一人1日1回で、回数上限数を上げた現解像度版と、より高い解像度版は今後有償オプションとして提供されるそうです。

ビジョナリーアートジェン

テキスト指示で、画像内の要素を他のものに変える機能です。

シームレスリムーバー

画像内の不要な要素を、ブラシでなぞって消去する機能です。

text&img2QR

テキストの内容QRコードにする機能です。

Speech and Voice Conversion

ここには音声変換関連の機能があります。

speech2text

音声ファイル、またはマイクから入力した音声を文字起こしする機能です。

text2speech

テキストファイルから音声合成を行う機能です。

voice2voice-pitch-format

マイクから吹き込んだ声をリアルタイムに変調し、スピーカー出力する機能です。(音声の保存はできません)

使い方は、画面を表示し、マイクに声を吹き込むだけです。

音声通話等には利用できません。利用法としては、自分で喋って、その変声へんごえを自分で聴く感じになります。

voice2voice-synthesis

マイクに吹き込んだ声を文字起こしし、吹き出しにします。

吹き出しをタップすると、読み上げされます。(読み上げ音声の保存はできません)

使い方は、画面を表示し、マイクに声を吹き込むだけです。

ボイスクラフト

テキストの音声読み上げをしてくれる機能です。

100以上の言語に対応しており、6人の話者から選択できます。

TransLingual Suit

ここには動画配信翻訳に関連した機能があります。

リアルタイムのライブ配信を行う機能です。

自動で文字起こし(話者解析テキスト)と多言語翻訳(翻訳テキスト)が行われるため、言語の壁を超えた視聴と配信が可能です。

また、視聴者はリアルタイムでコメント送信できます。

リンゴリンクライブの視聴はここから行います。

開始日時・終了日時は、グリニッジ標準時(UTC +0000)で表示されます。日本時間に直すには9時間足してください。
例:2024-02-23 T09:00:00 +00:00 → (日本時間)2024年2月23日 18時00分00秒

発話の文字起こし
発話の翻訳
視聴者からのコメント

リンゴリンクライブの配信予約はここで行います。

リンギュイスティックリフレクション

多言語に対応した、動画字幕作成機能です。

作成した字幕ファイルは、拡張子を「srt」に変えると、他の動画編集ソフトや再生ソフトでそのまま利用できます。

日本語字幕
イタリア語字幕
字幕ファイル

スピークストリームライン

指定したメディア(動画・音声)を解析し、その文字起こし翻訳要約、および分析と提案を一度に行う機能です。

スピークストリームラインの詳細や使い方は、以下の記事をご覧下さい。

チューブスピークフロー

スピークストリームライン文字起こし翻訳要約等の機能を、Youtube動画に特化したものです。

チューブスピークフローの使い方は、以下のスピークストリームラインの記事内で紹介しています。

スナップトランスレート

画像内の文字抽出と翻訳を行う機能です。

カメラで写真を撮って、すぐに翻訳を見たい時などに便利です。

164言語の読み取りと、75言語への翻訳が可能です。

Volevo un Gatto Nero
(黒ネコのタンゴ)

ボイスバース

テキストを各国語に翻訳し、指定した話者の声質で読み上げる機能です。

話者(音声データ)の指定は、以下の3つから行えます。

  • 元になる音声ファイルを選択
  • 動画のURLをクリップボードから貼付け
  • 苫米地博士の音声を利用

ポリグロット通訳アシスタント

マイクに吹き込んだ音声を、その場で翻訳し読み上げる機能です。(29言語対応)

多言語に通訳

吹き込んだ内容が多言語同時翻訳されます。

でき上がった吹き出しをタップすると、読み上げがされます。

双方向に通訳

二人で利用する通訳機能です。

吹き込んだ内容が、相手の言語に翻訳され読み上げがされます。

Tailored Tunes

ここには楽曲生成に関する機能があります。

チューントランスフォーマー

テーマコレクションプレイリストの順に選択すると、それに合致した楽曲が生成される機能です。

ハルモニア

作曲者(マエストロ)作品名を選択すると、その楽曲を聴くことができる機能です。800曲のクラシック音楽が用意されています。

メロディクラフト

入力したテキストを分析し、そのニュアンスや感情に合った短い楽曲が生成されます。

メロディシネスティジア

元になる楽曲プロンプト指示から、短いメロディを生成する機能です。

メロディメイズ

音楽トラックから、ボーカルインストゥルメンタル(楽器演奏)を分離する機能です。

ケイデンスヘラルド

マイクから取り込んだ音楽を解析し、その楽曲データを提示する機能です。

サウンドアーキテクト

テキストの内容に合った、短い効果音や環境音を生成する機能です。

ボイスピュリファイ

音声データからノイズを除去し、かつ音声部分を強調する機能です。

ボイスモーフ

発話内容を、別の話者の話し方(声質やトーン)で再現する機能です。

Text Conversion

ここにはテキスト変換に関する機能があります。

pdf2text

PDFファイルからテキストを抽出する機能です。

アカデミックパーサ

英語の論文PDFを解析し、その本文翻訳文(多国語対応)を、Mathpix Markdown (mmd)形式で提示する機能です。

Mathpix Markdownは、高度な数式や科学的表記表現が可能な記述方式です。

解析された本文
翻訳文

保存した mmdファイルは、VS CodeMathpix Markdownプラグインをなどを用いると表示できます。

スマートモデルセレクター

AIを利用する際に適切なモデル(OpenAIのGPT-3.5、GPT-4など)を選択してくれる機能です。

URL Manipulation

url2url-shortening

短縮URLの作成と、そのQRコードの生成を行う機能です。

text&img2QR」との違いは、以下の3つです。

  • 短縮URLの作成が可能
  • URL専用(URL以外のテキストには反応しません)
  • QRコードはモノクロのみ生成

以上、「AIコンテンツエンハンス – スタティック」の紹介でした。

  • URLをコピーしました!
目次