バイオリン? ヴァイオリン? どっちがただしいの?

表記ゆれ それとも 別の語?

同じ概念をさす複数の表記があります
例えば「スパゲティ」「スパゲッティ」や「バイオリン」「ヴァイオリン」などです
この現象は表記ゆれと呼ばれています
さて 表記がゆれた場合 どっちが正しいのでしょう? それを決めることは難しいですが ある2語が 表記ゆれの関係にあるか どうか を判定することは機械でもできます



ありそうな表記ゆれをつくる

表記ゆれの多くは英語など外国語をカタカナ語として輸入する際におこります
これを利用して カタカナ語を英語に翻訳し もう一度カタカナ語に翻訳しなおすことで ありそうな表記ゆれを生成することができます
「マイケル」が ときどき「ミッチェル」になったり 英語を経由することで 「らしい」 表記ゆれがえられます




多言語翻字

上記システムのもとになっているのは翻訳(正確には翻字)技術です
英語を7ヶ国語に翻訳が可能です



なんの役にたつの?

この表記ゆれ吸収技術は 日本内科学会や日本循環器学会の症例報告検索システムとして組み込まれる予定です.



All rights reserved eiji.aramaki@gmail.com 2009 | Designed by: Technology Directory

技術論文

    多言語翻字

  1. Eiji Aramaki, Takeshi Abekawa: Fast decoding and Easy Implementation: Transliteration as Sequential Labeling, the Association for Computational Linguistics and International Joint Conference on Natural Language Processing (ACL-IJCNLP2009) Named Entities Workshop (NEWS), 2009.

    表記ゆれ

  2. Eiji Aramaki, Takeshi Imai, Kengo Miyo, Kazuhiko Ohe: Orthographic Disambiguation Incorporating Transliterated Probability, International Joint Conference on Natural Language Processing (IJCNLP2008), pp.48-55, 2008. [PDF]
  3. Eiji Aramaki, Takeshi Imai, Kengo Miyo, Kazuhiko Ohe: Support Vector Machine Based Orthographic Disambiguation, The Conference on Theoretical and Methodological Issues in Machine Translation (TMI2007), pp.21-30, 2007. [PDF]
  4. 荒牧英治, 今井健, 梶野正幸, 美代賢吾, 大江和彦: Support Vector Machineを用いた医学用語の表記ゆれ解消, 言語処理学会 第14回年次大会, pp.135-138, 2008. [PDF]