プロトコル研究

Pr7. Deidentification Challenge(終了)

サマリーの自然文に含まれる個人情報(日付/人名/施設名etc)は97%自動匿名化できる

Deidentification of clinical records has drawn a great deal of attention in the medical field. Since texts in clinical records are mostly ungrammatical and fragmented, previous approaches have relied only on local information, namely contextual words surrounding a current target word. The present paper proposes a new approach employing three types of non-local features, which does not come from surrounding words: (1) sentence features, corresponding to the previous/next sentence information and (2) label consistency, preferring the same label for the same word sequence. The experimental results showed high performance (precision 98.29%; recall 96.66%; f-measure 97.47), demonstrating the feasibility of the proposed approach.
  • Eiji Aramaki, Takeshi Imai, Kengo Miyo, Kazuhiko Ohe: Automatic Deidentification by using Sentence Features and Label Consistency, Workshop on Challenges in Natural Language Processing for Clinical Data, 2006. [PDF]
Pr6. Smoking Challenge (終了)

サマリーの自然文から患者の喫煙歴が(精度88.9%で)分かる

A method for classifying the status of a patient in a medical record is highly desired be- cause this enables larger-scale statistical medical studies. This study introduces a system that classifies the smoking status a patient from a medical record. The system consists of two mod- ules: (1) a heuristic-based information extraction module and (2) an Okapi-BM25 and K-Nearest Neighbor-based (kNN-based) classifier module. In experiments, the proposed system achieved an ac- curacy of 88.97%, demonstrating the basic feasi- bility of the approach proposed herein.
  • Eiji Aramaki, Takeshi Imai, Kengo Miyo, Kazuhiko Ohe: Patient Status Classification by using Rule based Sentence Extraction and BM25-kNN based Classifier, Workshop on Challenges in Natural Language Processing for Clinical Data, 2006. [PDF]
Pr5. 電子カルテと紙カルテに含まれる医療情報の質的/量的な差異の調査(進行中)

電子化により外来カルテ文章の情報量は増加する傾向がある


【背景】平成13年度「保健医療分野の情報化にむけてのグランドデザイン」以降,本邦では徐々に診療録の電子化が進んでいる.電子カルテは,紙カルテに比べ,診療情報の保存や管理が容易で,臨床研究を行う際にも診療情報を効率よく処理でき,利便性に優れていると考えられている.一方で,患者と対面しつつ入力することは負担であり記述量が減るのではないかという指摘や,電子カルテ内の既存の文章を容易にコピー・ペーストして転用できるため,診療情報が重複して記録され,紙カルテに比べて文章の量は増えたものの,期待されたほど情報の質は向上しておらず,実際の情報量に変化はない,という指摘もある.これまでと電子カルテ紙カルテを比較してカルテに含まれる医療情報を量的,質的に検討したものは少なく,記述されるテキストに電子カルテ特有の特性があるのかもわかっていない.
【目的】電子カルテと紙カルテ間での記述されたテキストに含まれる医療情報の質的,量的な差異を明らかにする.
【方法】コーパス言語学,計量言語学や自然言語処理の分野で提案されている12の尺度を用いてカルテの文章を質的及び量的に定量化し,それらを指標として電子カルテと紙カルテを比較する.
【材料】倫理委員会の承認を得て,糖尿病・代謝内科の外来受診通院中の患者85名の患者(44名の医師が記載)の紙カルテ(2003年4月-2009年6月)及び,電子カルテ(2009年6月-2010年2月)の患者主訴部分を抽出し,分析材料とした.
【結果】質的尺度を用いた検討では紙カルテと電子カルテに有意な差は認められなかった.量的尺度を用いた検討では,紙カルテに比較し,電子カルテの記述量が有意差はないものの約3~10ポイント高い傾向にあった.
【結論】電子カルテ導入前後でカルテに含まれる医療情報に質的な変化はなかったが,情報量は増加していた.

文献[投稿中]
Pr4. 書き間違いの自動収集及び定量的分析に関する研究(進行中)
これまで,言語処理分野ではタイポは例外的現象として十分に研究されてこなかった. しかし,膨大なテキスト資源であるウェブ上のサービス(ツィッターやチャットなど)は,出版物のような編集処理を経ておらず,その結果,非文法的表現やタイポを含んでいる. 当然,これら新しいリソースを十分に利用するためには非文法的表現やタ イポを処理できる頑健さが求められるであろう. 以上の背景から,本研究は,タイポに焦点をあて,その自動抽出と分析を目的に研究を行った.
  • 荒牧英治, 宇野良子, 岡瑞起: TYPO Writer: ヒトはどのように打ち間違えるのか?, 言語処理学会 第16回年次大会, pp.966-969, 2010.
Pr3. カルテ文章(退院サマリ)から副作用情報の自動抽出に関する研究 (進行中)
本邦では近年急速に電子カルテが普及し,その結果,大量の臨床データが電子化された状態で蓄積されつつある.このデータを構造化されたデータとして利用できれば,過去に類をみない大規模な臨床研究が実現可能であると思われる. 本研究では,カルテの一種である退院サマリを材料に,副作用に関する記述がどの程度含まれているのか/どの程度自動抽出可能であるかを調査した.
  • Eiji Aramaki, Yasuhide Miura, Masatsugu Tonoike, Tomoko Ohkuma, Hiroshi Mashuichi, Kayo Waki, Kazuhiko Ohe: Extraction of Adverse Drug Effects from Clinical Records, Stud Health Technol Inform. 2010.
Pr2. 表記ゆれ識別に関する研究
他言語からの借用が多い医学用語では「コリアー徴候」「コリエー徴候」といった表記ゆれが数多く存在し,多くのテキスト処理アプリケーションにとって大きな問題となっている. 本研究では日本語医学用語の表記ゆれを解消することを目指す. 従来の表記ゆれ研究では,借用語のもととなる英語を推定するback-transliterationを行うものが主であった.この手法は暗に正しいtransliterationが存在していることを仮定している.しかし,「アヴォガドロ」「アボガドロ」のように,現実的にはある語に対して,複数のtransliteration結果がともに広く使用される場合も存在し,この問題設定では正解を一意に定めれないことも多い.そこで,我々は,原言語を考慮せず,二つの借用語が表記ゆれ関係にある(同一概念を指す)か否かを判定する二値分類問題として表記ゆれを扱い,これを機械学習するアプローチをとる. 実験の結果,未知の近いスペルをもった2語が表記ゆれ関係にあるか否かを高い精度(F値=0.82)で判別できた.
  • 荒牧英治, 今井健, 梶野正幸, 美代賢吾, 大江和彦: Support Vector Machineを用いた医学用語の表記ゆれ解消, 言語処理学会 第14回年次大会, pp.135-138, 2008.
  • Eiji Aramaki, Takeshi Imai, Kengo Miyo, Kazuhiko Ohe: Orthographic Disambiguation Incorporating Transliterated Probability, International Joint Conference on Natural Language Processing (IJCNLP2008), pp.48-55, 2008.
Pr1. 病名の自動コーティングに関する研究
様々な言語処理技術を用いて病名の国際統計分類(ICD)への自動コーディングを試みた. 現在,情報検索モデルOkapi-BM25を使用した手法を用いて,5語以上から成る長い病名に対して50.8%の精度を得ている.
  • Eiji Aramaki, Takeshi Imai, Masayuki Kajino, Kengo Miyo, Kazuhiko Ohe: A Statistical Selector of the Best among Multiple ICD-coding Methods, Stud Health Technol Inform. 2007, Vol.129, No., pp.645-649, 2007.
  • 荒牧英治, 今井健, 梶野正幸, 美代賢吾, 大江和彦: 情報検索尺度Okapi-BM25と交換可能語ペアを用いた自動ICDコーディングに関する研究, 医療情報学, Vol.27, No.1, pp.101-107, 2007.

開発研究/デモシステム

系列ラベリングによる翻字/表記ゆれデモ
翻字/表記ゆれを系列ラベリング問題とみなして高速に解きます.
医療テキスト構造化システム「TEXT2TABLE」

DEMO: TEXT2TABLE (Fuji Xerox共同研究)

退院サマリ文章を表形式に自動変換します. 当システムはfuji xeroxとの共同研究によるものです.
症例検索システム「症例くん」

各学会の地方会で発表された演題を検索することができます.
Webからの健康情報抽出に関する研究 (Nifty共同研究)

花粉症について言及しているつぶやきの内容から,花粉症の症状で困っている人の発言が否かを識別し,可視化します. [link]
病名の自動ICDコーディングに関する研究
疾病及び関連保健問題の国際統計分類(ICD)は最も標準的で重要な疾病分類で すが,非常に大きな分類のため,コーディングに時間やコストがかかるのも事 実です. そこで,自然言語処理による自動コーディング手法を研究していま す. 現在,情報検索モデルOkapi-BM25を使用した手法を用いて,5語以上から 成る長い病名に対して50.8%の精度で自動ICDコーディングに成功しています.

DEMO: 病名の自動ICDコーディング