スタティック
フォートトークのAI機能「AIコンテンツエンハンス」には、以下の4つがあります。
- スタティック
-
コグニティブリサーチラボの独自AI使用で、API設定不要。
- インタラクティブ
-
Open AIのAPIキーを使用。
- ユニバーサル
-
Google GeminiのAPIキーを使用。
- プレミアム
-
独自AI使用の有料プレミアムコンテンツ変換機能。API設定不要。
この記事では、一番上の「スタティック」の各機能概要を紹介をします。
インタラクティブについては、以下の記事をご覧くださいにゃ
「AIコンテンツエンハンス – スタティック」の表示方法
「スタティック」を利用するには、「追加機能 > AIコンテンツエンハンス – スタティック」を選択します。
すると「スタティック」の項目が表示されます。
各機能を一言で説明リスト
「AIコンテンツエンハンス – スタティック」には、現在40以上の機能があり、全体の把握がしづらくなっています。
そこで各機能を大ざっぱにイメージできるよう、一言で説明するリストを作ってみました。
各機能を一言で説明リスト
(クリックで表示)
- Interactive AI Companions
- Natural Cognitiveチャット
AIとのチャット
- Natural Cognitiveチャット
- Image Conversion
- img2img
各種画像生成機能(初期のもの) - セグメントフレックス
画像内の区分け表示 - イメージインスクリプター
画像内のテキスト抽出 - イメージキャプショニファイ
画像内容の説明(1文) - ビジョンアンサー
画像内容の質問回答(1語) - コグニティブビジョン
画像内容の説明(超詳細) - text2img
テキスト指示で画像生成(英語で) - アニメーションジェン
テキスト指示でショート動画生成 - フェイスフュージョン
顔画像とテキスト指示で人物写真生成 - アニメイズフュージョン
顔画像とテキスト指示で人物絵画生成 - フレームフロー
静止画からショート動画生成 - ビジョンクリエーター
多言語対応のテキスト指示画像生成 - イマジンアート
テキスト指示で画像生成(日本語対応) - モーフマジック
モーフィング画像の生成 - デプスジェン3D
深度マップの作成 - ピクセルウィーバー3d
2次元画像から3Dモデルの生成 - ビジョナリーアートジェン
画像内要素をテキスト指示で変更 - シームレスリムーバー
画像内要素をきれいに削除 - text&img2QR
QRコード作成
- img2img
- Speech and Voice Conversion
- speech2text
音声から文字起こし - text2speech
テキストから音声合成 - voice2voice-pitch-format
マイク入力のボイスチェンジャー - voice2voice-synthesis
マイク入力の吹き出しテキスト作成 - ボイスクラフト
多言語対応のテキスト読み上げ
- speech2text
- TransLingual Suit
- リンゴリンクライブ視聴・配信
リアルタイム動画配信 - リンギュイスティックリフレクション
動画の字幕作成 - スピークストリームライン
動画の文字起こし・翻訳・提案 - チューブスピークフロー
動画の文字起こし・翻訳・要約(Youtube専用) - スナップトランスレート
画像内テキストの抽出と翻訳 - ボイスバース
テキストを翻訳し指定話者声質で読み上げ - ポリグロット通訳アシスタント
マイク入力型の通訳機能
- リンゴリンクライブ視聴・配信
- Tailored Tunes
- チューントランスフォーマー
条件選択式の楽曲生成 - ハルモニア
作曲者選択式のクラシック音楽提示 - メロディクラフト
テキスト指示の短楽曲生成 - メロディシネスティジア
元楽曲とテキスト指示から短メロディ生成 - メロディメイズ
楽曲からボーカルと楽器演奏を分離 - ケイデンスヘラルド
楽曲解析による音楽情報提示 - サウンドアーキテクト
テキスト指示による効果音生成 - ボイスピュリファイ
音声データからノイズ除去 - ボイスモーフ
他の話者声質で発話音声生成
- チューントランスフォーマー
- Text Conversion
- pdf2text
PDFからテキスト抽出 - アカデミックパーサ
英語論文PDFの解析・翻訳・Mathpix Markdown提示 - スマートモデルセレクター
AIモデルの選択補助
- pdf2text
- URL Manipulation
- url2url-shortening
短縮URLとQRコード作成
- url2url-shortening
では、以下に「スタティック」の各機能を紹介していきます。
Interactive AI Companions
Natural Cognitiveチャット
誰でも気軽に使えるAIチャットです。様々な質問に対し明晰に答えてくれます。
「Natural Cognitiveチャット」の使い方は以下の記事をご覧ください。
Image Conversion
ここには画像処理関連の機能があります。
img2img
初期の頃にリリースされた、各種画像処理機能がここに集められています。
この img2img には、以下のような画像処理機能があります。
- 顔写真アニメ化
- 顔写真アニメ化2
- 顔写真アバター化
- 肖像画
- 風景アニメ化
- スタイル転送
- 超解像
- 超解像+肖像画
- 背景変更
- イラスト、アニメのスケッチ
- 美肌
- 暗い写真を補正
img2img は機能が多いため、詳細は以下の記事をご覧下さい。
セグメントフレックス
画像内の要素を色で区分け(セグメント)する機能です。
セグメント方法は、「点で指定」「左上と右下の点で矩形を指定」「テキストを入力」「全領域」の4つから選べます。
イメージインスクリプター
画像からテキストを抽出する機能です。
イメージキャプショニファイ
画像を解析し、その内容を文章で表示する機能です。
ビジョンアンサー
画像の内容について質問すると、短い回答が返ってくる機能です。
コグニティブビジョン
画像の詳細な内容を文章で提示する機能です。
個人を特定できる情報が含まれる場合は、その点について触れないなど、プライバシー配慮もなされています。
text2img
プロンプトの内容に合った画像が生成される機能です。プロンプトは英語で入力します。
アニメーションジェン
プロンプトの内容から、ショート動画を生成する機能です。
フェイスフュージョン
顔画像とプロンプトから、新しい人物写真を生成する機能です。
アニメイズフュージョン
人物画像とプロンプトから、新しい人物絵画やイラストを生成する機能です。
フレームフロー
静止画からショート動画を自動で生成する機能です。
タイトルは動画の内容には反映されません。(自分用の覚え書きです)
ビジョンクリエーター
テキストの内容に沿った画像として生成する機能です。多言語に対応しています。
イマジンアート
プロンプトの内容から画像を生成する機能です。
モーフマジック
選択した一方の画像から、他方の画像へと変化するモーフィング動画を生成する機能です。
デプスジェン3D
テキスト指示あるいは選択画像から、深度マップ(depth map)を生成する機能です。
深度マップは手前の要素が白く、奥にある要素が黒く表示されるものです。
深度マップを利用すると、立体感や奥行きのある画像を作成できます。
ピクセルウィーバー3d
2次元の画像から、3次元モデルを生成する機能です。
作成したモデルは、iOSのクイックルックや他のARアプリ等で利用できます。
ビジョナリーアートジェン
テキスト指示で、画像内の要素を他のものに変える機能です。
シームレスリムーバー
画像内の不要な要素を、ブラシでなぞって消去する機能です。
text&img2QR
テキストの内容をQRコードにする機能です。
Speech and Voice Conversion
ここには音声変換関連の機能があります。
speech2text
音声ファイル、またはマイクから入力した音声を文字起こしする機能です。
text2speech
テキストファイルから音声合成を行う機能です。
voice2voice-pitch-format
マイクから吹き込んだ声をリアルタイムに変調し、スピーカー出力する機能です。(音声の保存はできません)
使い方は、画面を表示し、マイクに声を吹き込むだけです。
voice2voice-synthesis
マイクに吹き込んだ声を文字起こしし、吹き出しにします。
吹き出しをタップすると、読み上げされます。(読み上げ音声の保存はできません)
使い方は、画面を表示し、マイクに声を吹き込むだけです。
ボイスクラフト
テキストの音声読み上げをしてくれる機能です。
100以上の言語に対応しており、6人の話者から選択できます。
TransLingual Suit
ここには動画配信や翻訳に関連した機能があります。
リンゴリンクライブ視聴・配信
リアルタイムのライブ配信を行う機能です。
自動で文字起こし(話者解析テキスト)と多言語翻訳(翻訳テキスト)が行われるため、言語の壁を超えた視聴と配信が可能です。
また、視聴者はリアルタイムでコメント送信できます。
リンゴリンクライブ視聴
リンゴリンクライブの視聴はここから行います。
リンゴリンクライブ配信
リンゴリンクライブの配信予約はここで行います。
リンギュイスティックリフレクション
多言語に対応した、動画字幕作成機能です。
作成した字幕ファイルは、拡張子を「srt」に変えると、他の動画編集ソフトや再生ソフトでそのまま利用できます。
スピークストリームライン
指定したメディア(動画・音声)を解析し、その文字起こし、翻訳、要約、および分析と提案を一度に行う機能です。
スピークストリームラインの詳細や使い方は、以下の記事をご覧下さい。
チューブスピークフロー
スピークストリームラインの文字起こし・翻訳・要約等の機能を、Youtube動画に特化したものです。
チューブスピークフローの使い方は、以下のスピークストリームラインの記事内で紹介しています。
スナップトランスレート
画像内の文字の抽出と翻訳を行う機能です。
カメラで写真を撮って、すぐに翻訳を見たい時などに便利です。
164言語の読み取りと、75言語への翻訳が可能です。
ボイスバース
テキストを各国語に翻訳し、指定した話者の声質で読み上げる機能です。
話者(音声データ)の指定は、以下の3つから行えます。
- 元になる音声ファイルを選択
- 動画のURLをクリップボードから貼付け
- 苫米地博士の音声を利用
ポリグロット通訳アシスタント
マイクに吹き込んだ音声を、その場で翻訳し読み上げる機能です。(29言語対応)
多言語に通訳
吹き込んだ内容が多言語に同時翻訳されます。
でき上がった吹き出しをタップすると、読み上げがされます。
双方向に通訳
二人で利用する通訳機能です。
吹き込んだ内容が、相手の言語に翻訳され読み上げがされます。
Tailored Tunes
ここには楽曲生成に関する機能があります。
チューントランスフォーマー
テーマ、コレクション、プレイリストの順に選択すると、それに合致した楽曲が生成される機能です。
ハルモニア
作曲者(マエストロ)と作品名を選択すると、その楽曲を聴くことができる機能です。800曲のクラシック音楽が用意されています。
メロディクラフト
入力したテキストを分析し、そのニュアンスや感情に合った短い楽曲が生成されます。
メロディシネスティジア
元になる楽曲とプロンプト指示から、短いメロディを生成する機能です。
メロディメイズ
音楽トラックから、ボーカルとインストゥルメンタル(楽器演奏)を分離する機能です。
ケイデンスヘラルド
マイクから取り込んだ音楽を解析し、その楽曲データを提示する機能です。
サウンドアーキテクト
テキストの内容に合った、短い効果音や環境音を生成する機能です。
ボイスピュリファイ
音声データからノイズを除去し、かつ音声部分を強調する機能です。
ボイスモーフ
発話内容を、別の話者の話し方(声質やトーン)で再現する機能です。
Text Conversion
ここにはテキスト変換に関する機能があります。
pdf2text
PDFファイルからテキストを抽出する機能です。
アカデミックパーサ
英語の論文PDFを解析し、その本文と翻訳文(多国語対応)を、Mathpix Markdown (mmd)形式で提示する機能です。
保存した mmdファイルは、VS CodeのMathpix Markdownプラグインをなどを用いると表示できます。
スマートモデルセレクター
AIを利用する際に適切なモデル(OpenAIのGPT-3.5、GPT-4など)を選択してくれる機能です。
URL Manipulation
url2url-shortening
短縮URLの作成と、そのQRコードの生成を行う機能です。
「text&img2QR」との違いは、以下の3つです。
- 短縮URLの作成が可能
- URL専用(URL以外のテキストには反応しません)
- QRコードはモノクロのみ生成
以上、「AIコンテンツエンハンス – スタティック」の紹介でした。