医薬品チームブログ
データ制作

SGMLからXMLへの変更に伴う文字コードの違い

投稿日:2017.05.15

更新日:2022.08.01


医薬品添付文書の記載要領が改正されるのに合わせ、医療用医薬品添付文書の届出がSGMLからXMLに変更されます。
今までのSGMLでは文字コードをShift_JISで作成することが義務付けられていましたが、XML化に伴い文字コードがUTF-8に変更される予定です。
文字コードについての細かな説明は割愛させていただきますが、Shift_JISは日本語を記述する為に作られたのに対し、UTF-8は世界中の言語に対応できるように作られた経緯があり、使用できる文字数が大幅に増えます。
多言語での記述が可能になる他、日本語でも使用できる漢字が増えます。

実際にどんな影響があるのか、軽く触れたいと思います。

【医薬品では何に影響する?】

例えば「かゆみ」を意味する「そう痒」という字は、漢字で表記すると「掻痒」「搔痒」「瘙痒」の3つの表記があります。
しかしShift_JISでは「掻」の字体しか対応しておらず、他の「搔」と「瘙」の字は使用することができませんでした。
実際に日本ジェネリック株式会社の”アカルボース錠50mg「JG」/アカルボース錠100mg「JG」”などは、添付文書(PDF)では「瘙痒」と記述されているのに対し、SGMLでは「そう痒」と記述されています。(2017/05/09時点)

PDF_HTML_Compare

PMDAの検索結果から抜粋しています(http://www.pmda.go.jp/PmdaSearch/iyakuSearch/

UTF-8では「搔」と「瘙」の字体も使用することができるようになります。
今までは、やむ追えず字体を変えたり平仮名で記述していた文字が、添付文書と同様の字体で記載することが可能となります。

Web上の表示が紙媒体の内容に近づくことが期待されます。

 

【注意事項】

過去の通知の中でUTF-8になることは通知されていますが、その中で「日本語項目でどの文字 が使用不可かは追って通知」という記述がありました。
UTF-8であるからといって全ての文字が使用できるかは不明ですので、注意して下さい。