大阪電気通信大学

LLMを用いた文化的な背景を持つ文章や単語の翻訳に関する研究

概要

翻訳ソフト(Google翻訳やDeepLなど)は日常的な翻訳で高い精度を持つ一方で,スラングや方言,混成語といった特定の文化的背景や独自表現を含む文章では精度が低下することが知られている.ただし,昨今では大規模言語モデルの活用が進み,既存の翻訳ソフトではなく大規模言語モデルを用いることで文章の翻訳を行うようにもなってきている.
本研究では,大規模言語モデルとして一般ユーザーに広く利用されるChatGPTの翻訳結果を既存の日本語訳と比較し,スラングやリドルなどといった文化的背景を反映した表現の翻訳可能性を評価した.実験結果より,以下のことが明らかになった.
(1).一般的ではない語彙や複雑な文法構造に対して翻訳精度が著しく低下する
(2).既存の知識に基づいた訳が優先され,元の意図が歪む場合がある
(3).未知語に対してカタカナ表記に依存する傾向がある
これらから,文化的要素を考慮したトークン化技術や辞書の拡充や未知語へのカタカナ語表記に対応するためのプロンプトでの追加の指示などが必要であることが考えられる.

研究背景

以前よりGoogle翻訳やDeepLなど,さまざまなウェブ翻訳ツールが登場している.
これらの翻訳ツールの翻訳精度は一般に用いる目的であれば十分高いと言えるが,翻訳可能なものは基本的に標準的な文章や単語に限られており,あまり一般には用いられない文化的な背景を持つ文章や単語に対しては十分に元の翻訳精度が発揮できていない.
ただし,昨今ではChatGPTなどの大規模言語モデルを用いて文章の翻訳を行うといった手段も一般的になっている.そこで,そのような文化的な背景を持つ文章や単語に対して大規模言語モデルを用いて翻訳を行うことで,翻訳精度を向上させることができるのではないかと考えた.

実験

ChatGPTのgpt-4oモデルに対し,「以下の文章を日本語に翻訳してください」という指示とともに英文を入力し,想定されている日本語訳との結果を比較した.
また実験を行う上で影響の出そうなメモリ機能やカスタム指示機能は無効化しておく.
今回実験の対象としたのは以下の内容である.

  • スラング
  • アナグラム
  • リドル
  • 混成語
  • パロディ
  • 方言

研究結果

それぞれの実験でのChatGPTの翻訳結果の例を表に示す.

スラングに関する実験

この実験では1つ目や2つ目の英文の場合,文章としては破綻はしていないものの,日本語として適切に伝わるかというとやや怪しい結果となった.
元のスラングの意図が日本語でも適切に伝えられているとは言えない.

アナグラムに関する実験

この実験ではChatGPTは適切に日本語を翻訳することができた.
ただし,タイポグリセミア現象が発生する文章を翻訳しても,その結果までタイポグリセミア現象の発生する文章へとは変換できていない.

リドルに関する実験

適切に日本語として意味の通る文章としては翻訳できている.
ただし,元が英文であるということは情報として抜け落ちるため,「鼻の下で育つ花はなんでしょう?」などのように一部のリドルは日本語で考えても意図が伝わらない可能性がある.

混成語に関する実験

特にカタカナ語への翻訳が多いように見られる.
また,最初の詩にあたる部分が「スライシー」ではなく「滑らかでぬめぬめした」というように訳されており,日本語訳での翻訳スタイルと照らし合わせても不適切であるなどの混成語の単語をそのまま表記するべきところと意味を説明するべきところが混ざっているように推測される.

パロディに関する実験

日本語訳は実際にこの文章が表示されるタイミングがわかっているために,ChatGPTと比べて状況に応じた適切な訳が行われてはいるが,ChatGPTの訳も意味としては類似していると考えられる.
ただし,特に「Whatever Floats Your Goat!」で見られるように翻訳は直訳じみており,パロディ部分に該当する適切な翻訳は当てられていないようには感じられる.

方言に関する実験

特に意味としては間違ってはおらず,適切に翻訳が行えている.


考察とまとめ

ChatGPTが適切な翻訳が行えている箇所を学習済みなのかまでは不明だが,適切な翻訳が行えていない箇所に関しては少なくともその語彙に関する学習が不足していると考えられる.
結果より特に未学習である語彙などに関して3つの問題点が明らかになった.

  • パロディやスラングなどの影響を受け,文章が特殊な構造である場合にはその構造を保った翻訳が行えない.
  • 同一の表記である別の語彙を用いた翻訳が行われる.
  • 意味ベースの翻訳ではなく発音ベースでカタカナ語への翻訳が行われる.

また,今回用いたChatGPTよりも日本で開発された大規模言語モデル及びトークナイザーの方が日本語表現はより適切になると考えられる.
しかし,翻訳というものの性質上日本語表現だけではなく,英語や中国語などといった比較的使用されることの多い言語圏での文化も学習しなければ,文化的表現を適切に翻訳することはできない.
そのため,特に文化的な要因を含む語彙の積極的な学習や指示段階でのプロンプトによるサポートなどが必要であると考えられる.

作者プロフィール

中田 淳貴


学部:総合情報学部
学科:デジタルゲーム学科
所属:デジタルアーキテクチャ研究室

コメント