MITの研究者らは、言葉で指示するとMIDI形式の音楽を生成できる言語モデル『MIDI-LLM』を開発。
「こういう音楽を作って」と伝えると直接音楽データを生成。これは統一規格です(楽器に転送できる)。
面白いことに、「もともとある言語モデルに音楽の知識を追加する」アプローチを取っています。
一つの音符を「開始時刻」「長さ」「楽器・音高」の3つの情報で表現し、これを言語モデルに教え込んでいます。
こうした工夫により、指示に忠実な音楽を生成できるように、しかも生成速度が大幅に速くなったそうです。
この技術はいわば「Text-to-MIDI」と呼ばれており、編集の柔軟さが評価されています。
実際に音楽を生成できるウェブページが公開されています。試してみてはいかがでしょうか。