www.techno-edge.net/article/2023/11/06/2202.html
1 Users
0 Comments
12 Highlights
0 Notes
Tags
Top Highlights
Waveformerアーキテクチャを基にした音声変換モデル「LLVC」(Low-latency Low-resource Voice Conversion)を提案しています。このモデルは、高速でありながら遅延が少なく、低い計算リソースで動作する特徴があります。具体的には、20msの低遅延で、一般のCPU上でリアルタイムストリーミングでの音声変換が可能な最初のオープンソースモデルとして紹介されています。
新たに開発されたモデル「Distil-Whisper」は、さまざまな音声環境において、オリジナルのWhisperとほぼ同等の性能を持ちながらも高速に動作します。具体的には、複数のテストセットでの評価では、Distil-Whisperはオリジナルに比べ計算コストが大幅に低減し、5.8倍の速度で動作します。さらに、パラメータは51%減少しているにもかかわらず、テストデータにおけるWER(単語誤り率)での性能差はWhisperと僅か1%しかありませんでした。
Skywork-13Bは、セグメント化されたコーパスを使用し、一般的な訓練の後にドメイン特有の強化訓練を行う2段階の訓練方法論を採用しています。その結果、このモデルは、人気のあるベンチマークにおいて優れた性能を示すだけでなく、さまざまなドメインでの中国語モデリングでも最先端の性能を達成しています。
最先端の中国語モデリング能力を持つSkywork-13B-Baseと、会話に最適化されたSkywork-13B-Chat
130億のパラメータを持ち、英語と中国語のテキストから3.2兆以上のトークンで訓練されました。
T2Vモデルは、1024×576の解像度のビデオを2秒間生成することができます。
I2VモデルはT2Vモデルを基にしており、テキストと画像の両方の入力をサポートしています。
VideoCrafterの両モデルは、オープンソースモデルとして高い性能を達成している
このモデルは、2千万のビデオと6億の画像で学習されています。
特に、専用のGPUがないデバイス(例:ノートパソコンやスマートフォン)でも、リアルタイムでの動作が実現できます。
研究チームは「EmotionPrompt」という、LLMの反応を向上させるための感情的なメッセージをプロンプトに追加し、実験を実施しました。
具体的には、Instruction Inductionデータセットでは8.00%、BIG-Benchデータセットでは115%の相対的なパフォーマンス向上が見られました。さらに、自動で評価可能な確定的なタスクだけでなく、106人の参加者を対象とした人間による研究も実施し、生成タスクの質を評価しました。結果、EmotionPromptは生成タスクのパフォーマンス、つまり性能、真実性、責任感の面で顕著に良い結果を達成できることが示されました。
Glasp is a social web highlighter that people can highlight and organize quotes and thoughts from the web, and access other like-minded people’s learning.