もっと詳しく

Metaは、ユニバーサル言語トランスレータの作成に向けて新たな一歩を踏み出しました。

同社は、200を超える言語を翻訳するAIモデルをオープンソース化しており、その多くは既存のシステムではサポートされていません。

この調査は、今年初めに開始されたメタイニシアチブの一部です。

ご挨拶、ヒューマノイド

今すぐニュースレターを購読して、受信トレイにあるお気に入りのAIストーリーを毎週まとめてください。

「私たちはこのプロジェクトを呼んでいます 言語が残されていない、およびNLLBで使用したAIモデリング手法は、FacebookとInstagramで、世界中の何十億もの人々が話す言語の高品質な翻訳を作成するのに役立っています」とMetaCEOのMarkZuckerbergはFacebookの投稿で述べています。

NLLBは、マオリ語やマルタ語などの低リソース言語に焦点を当てています。 世界中のほとんどの人がこれらの言語を話しますが、AI翻訳に通常必要なトレーニングデータが不足しています。

Metaの新しいモデルは、この課題を克服するために設計されました。

これを行うために、研究者は最初に彼らのニーズを理解するために十分にサービスされていない言語の話者にインタビューしました。 次に、彼らは次のトレーニング文を生成する新しいデータマイニング技術を開発しました 低リソース言語。

次に、マイニングされたデータと人間が翻訳したデータを組み合わせてモデルをトレーニングしました。

その結果がNLLB-200です。これは202言語向けの大規模な多言語翻訳システムです。

チームは、低リソース言語の翻訳を評価するFLORES-101データセットでモデルのパフォーマンスを評価しました。

「言語の数が2倍になったにもかかわらず、最終的なモデルは、Flores-101の以前の最先端モデルよりも40%優れたパフォーマンスを発揮します。」 研究の著者は書いた

SOTAの比較