日本語処理の注意

提供: dococo wiki
2015年12月31日 (木) 13:19時点におけるimported>Webmasterによる版
ナビゲーションに移動 検索に移動

Perlによる文字操作

コンピュータでは日本語を表す(記録する)ためには、様々な規格(文字コード)が存在します。システムによってはキャラクターセット等とも言いますが、一例では以下のような規格があります。

  • ISO-8859-1
  • ISO-2022-JP
  • Shift_JIS
  • EUC-JP
  • UTF-8
  • UTF-16

日本語などのマルチバイト文字(文字を複数のバイトで表示する)をPerlで適切に扱うに、どのような文字コードををどのような文字コードで処理して、何処のような文字コードで出力するか。を適切に行わないと「文字化け」になります

処理イメージ

2015-12-31 13-15-19.png
例えば、UTF-8のファイルをパソコンで処理します。パソコンの内部はUTF-8で処理を行い、ファイル出力はSJIS、画面出力はCP932(Windowsの標準出力)。と言うように、どのようなファイルをどのように処理するか正しく考えなければなりません。