本の虫

著者:江添亮
ブログ: http://cpplover.blogspot.jp/
メール: boostcpp@gmail.com
Twitter: https://twitter.com/EzoeRyou
GitHub: https://github.com/EzoeRyou

アマゾンの江添のほしい物リストを著者に送るとブログ記事のネタになる

筆者にブログのネタになる品物を直接送りたい場合の宛先:
郵便番号:165-0027
住所:東京都中野区野方5-30-13 ヴィラアテネ401
宛名:江添亮

Google翻訳には秘密の特別版があるのか?

Does Google Have A Secret "Google Translate" Service?

公に公開されているGoogle翻訳と、GAndroidやChrome用のソフトウェア流通サイトに組み込まれているGoogle翻訳機能は、翻訳精度が違うというお話。

GoogleのGoogle翻訳は、おそらくオンライン翻訳サービスの最大手と言えるだろう。Googleは、このサービスを使って自動翻訳コンテンツを生成してオンライン上に公開するスパマーと戦っている

このため、Google自身が自動翻訳コンテンツの利用者だというのは、驚きに値する。まず最初に気がついたのは、Google Playで、アプリ説明に自動翻訳を付けたことだ。後にChrome Web storeでも同様になった。

さらに興味深いことに、この翻訳はほぼ人間のように見えることだ。少なくとも、Google翻訳オンラインの結果よりは、人間らしく見える。これはいったいどういうことだ。まず観察して、それから考察してみよう。

観察:Google翻訳コンテンツ

これは翻訳されたコンテンツと検索マーケッターとGoogleに対する観察、あるいは、如何にして最近イディッシュ語がオンライン上で知名度を上げているかということ。

コンテンツを書くコストは、規模を拡大したいWebサイトにとって、とても重いものだ。たいてい、ロングテールなキーワードとか内容は、広告収入などのWebサイトのマネタイズに、簡単には反映されない。

このため、ここ数年、自動翻訳(たいていはGoogle翻訳を使用)されたWebサイトに出くわすことがよくあるのだ。翻訳結果は、一件素晴らしいように見えて、よくよく読めば拙いものである。

Webサイトが自動翻訳というダークサイドに堕ちた末に、オリジナルのコンテンツは、できるだけ多くの言語に翻訳されるようになった。

このため、コンピューターを使わない超正統主義派のユダヤ教徒の間でしか話されていないような、珍しいイディッシュ語の知名度が上がっているのだ。Google翻訳でイディッシュ語が提供されているがために、イディッシュ語がオンライン上で広がっていると、筆者は信ずる。

Googleは自動翻訳コンテンツを使うサイトにペナルティを与える

Googleは翻訳コンテンツと戦うために、二つの方法を用いている。AdSenseと検索だ。

検索:Googleは自動的に生成されたコンテンツを検出して、SPAMとして扱う。

AdSense:多くのサイトは、Google AdSenseを使って、コンテンツのマネタイズをしている。最近、多くの者が不満の声をあげていることには、Googleから「あなたのGoogle AdSenseアカウントが無効にされました」というメールを受け取ったということだ。その説明には、Googleは、「無意味なコンテンツや自動生成されたコンテンツをWebサイトが提供している」ことを検出したことにより、規約違反の可能性があるとのことだ。

Google翻訳は、自動生成されているがスパムではないコンテンツとして使うことができるか?

もし、Google翻訳が改良されれば、WebサイトはGoogleのガイドラインや罰則から逃れることができるわけだ。この可能性はあるだろうか。

そこで、筆者はあるアプリのオリジナルのテキストを、Google翻訳を使って、英語からスペイン語と、英語からヘブライ語に翻訳して、比較してみた。(Chrome Web storeの設定アイコンをクリックして言語を変えることで可能だ)

Googleがweb storeで使っている内部ツールは、公開されているオンラインツールより、いくつかの点で優れているようだ。これは自動翻訳を使う全員が注目すべきことである。

  1. 固有名詞の判定。Google翻訳は、ゲーム名(Parking Panic)を、同じ意味の用語(例えば、スペイン語では"Aparcamiento pánico")に、間違えて翻訳してしまっている。まあ、例えば読者がAppleであったとしたら、ブランド名を"Manzana"(フランス語で果物のりんごの意)に翻訳されたくはないだろうし、この場合もそうだろう。
  2. 文法の性の判定。これもGoogle翻訳の問題だが、内部ツールには存在しない問題だ。ゲーム説明のヘブライ語翻訳は、「彼女は素晴らしいゲームだ」となるが、内部ツールは、ヘブライ語における文法の性を認識して、よりマシな「これは素晴らしいゲームだ」とする。
  3. 綴り間違い。Microsoft Wordは、内部ツールの翻訳に綴り間違いを一つしか発見しなかったが、公開ツールでは、二つの綴り間違いを発見した。
  4. 流暢性。内部ツールは、他にもいくつかの点で、公開ツールよりよい判断をしている。スペイン語とヘブライ語への翻訳では、みたところ、スペイン語翻訳は公開版でも良いのだが、ヘブライ翻訳は、内部ツールでようやくかろうじて読めるレベルになる。

なぜGoogleは持てる最高の技術を公開しないのか?

筆者の推測では、Gogoleは検出できないSPAMがあふれかえるのをおそれているのではないか。何にせよ、AndroidやChrome storeで公開できるほどであるとおもうならば、なぜGoogle翻訳で使えるようにしないのか。Google君、君の規約は我々を縛るが、その縛りはマウンテンビューにはないとみえるね。

Googleは、内部的にはもっと優れた翻訳技術を持っているが、何らかの戦略的理由で、公にはしていないのではないかというお話。