Windows10のメモ帳のアップデートと文字コード UTF-8 BOMなし・ANSI・文字化けを解説
Windows10のメモ帳では、アップデートにより、保存時の文字コードとして「UTF-8 BOMなし」が標準的に使われるようになりました。
この記事を公開した当時は、Windows標準のメモ帳でUTF-8を扱う場合、BOM付きで保存されることが一般的でした。そのため、Web制作やシステム開発の現場では、メモ帳で保存したファイルにBOMが付いてしまい、文字化けや処理上の不具合につながることがありました。
現在ではUTF-8 BOMなしが一般的になっていますが、古いシステムやCSVファイルの取り込みなどでは、今でも文字コードの違いが問題になることがあります。
この記事では、Windows10のメモ帳における文字コードの変更を振り返りながら、UTF-8 BOMなし、BOM付き、ANSI、文字化けの注意点について解説します。
Windows10のメモ帳ではUTF-8 BOMなしが標準に
Windows10のアップデートにより、メモ帳で保存するときのデフォルトの符号化方式が「UTF-8 BOMなし」になりました。
UTF-8は、国際的な文字コードであるUnicodeの符号化方式の一つです。英数字や標準的な記号は1バイトで扱うことができ、日本語などの多言語を扱う場合は複数バイトを利用して表現します。
現在のWebサイトやシステム開発では、UTF-8は広く使われている文字コードです。多言語対応を考えたシステムやWebサービスでも使いやすく、標準的な形式として扱われることが多くなっています。
以前のメモ帳では、UTF-8で保存するとBOMが付加される仕様でした。BOMが付くと、ファイルを受け取る側のシステムがBOMを正しく解釈する必要があります。BOMを想定していないシステムでは、文字データとしてうまく扱えない場合がありました。
そのため、Web系の開発では、Windows標準のメモ帳を使わないというルールを設けることもありました。
この記事を公開した当時のメモ帳と文字コード
この記事を公開した当時は、メモ帳でUTF-8形式として保存すると、BOM付きになることが一般的でした。
BOMは「Byte Order Mark」の略称で、ファイルの先頭に付加される数バイトの情報です。文字コードの判別などに使われることがありますが、UTF-8では必ず必要なものではありません。
当時は、メモ帳で作成したファイルをそのままWebシステムやプログラムで利用すると、BOMが原因で思わぬ動作をすることがありました。たとえば、ファイルの先頭に余計な文字が入ったように扱われたり、CSVファイルの読み込みで不具合が起きたりすることがあります。
もともとは互換性などを考慮して付加されていた情報ですが、UTF-8の利用が一般的になったことで、BOMなしで扱う方が自然な場面が増えてきました。
現在のメモ帳ではUTF-8 BOMなしが標準的に使われるようになり、以前よりもWeb制作やシステム開発で扱いやすくなっています。
UTF-8 BOMなし・BOM付き・ANSIの違い
UTF-8 BOMなしは、ファイルの先頭にBOMが付かない形式です。Web制作やプログラムファイルでは、この形式が使われることが多くあります。
UTF-8 BOM付きは、ファイルの先頭にBOMが付く形式です。ソフトによっては文字コードの判別に役立つことがありますが、BOMを想定していないシステムでは、余計な文字として扱われることがあります。
ANSIは、Windows環境で使われてきた文字コードを指す場合があります。日本語環境では、Shift-JIS系の文字コードとして扱われるケースが多く、UTF-8とは異なります。
そのため、UTF-8で保存されたファイルをANSIやShift-JISを前提としたシステムで読み込むと、文字化けが発生することがあります。逆に、Shift-JISで作成されたファイルをUTF-8として読み込んだ場合も、正しく表示されないことがあります。
文字コードは普段あまり意識されませんが、ファイルを別のソフトやシステムに渡すときには重要な要素になります。
メモ帳で文字化けを防ぐための注意点
メモ帳で文字化けを防ぐには、保存時の文字コードを確認することが大切です。
特に、CSVファイル、HTMLファイル、プログラムファイル、設定ファイルなどは、文字コードの違いが原因で不具合につながることがあります。
古い業務システムでは、Shift-JISを前提に作られているものもあります。そのようなシステムにUTF-8のファイルを取り込むと、日本語部分が文字化けする場合があります。
反対に、WebシステムではUTF-8を前提にしていることが多いため、Shift-JISのファイルをそのまま扱うと文字化けすることがあります。
現在のメモ帳ではUTF-8 BOMなしが標準的に使われるようになりましたが、すべてのシステムがUTF-8を前提にしているわけではありません。
システム開発やWeb制作で使用するファイルを編集する場合は、必要に応じて文字コードを確認できるエディタを使う方が安全です。
まとめ
Windows10のメモ帳では、アップデートによりUTF-8 BOMなしが標準的に使われるようになりました。
この記事を公開した当時は、メモ帳でUTF-8保存するとBOM付きになることがあり、Web制作やシステム開発の現場では注意が必要でした。
現在では扱いやすくなっていますが、UTF-8 BOMなし、BOM付き、ANSI、Shift-JISの違いを理解していないと、今でも文字化けやデータ取込エラーの原因になることがあります。
特に、古い業務システムやCSVデータを扱う場合は、どの文字コードで保存されているか、読み込み側がどの形式を想定しているかを確認することが大切です。