そっと、はてなブログ

はてなブログのベータテストを生暖かい目で見守るブログです。

『そっと、はてなブログ』

…… はてなブログのベータテストを生暖かい目で見守るブログです。【 記事一覧 】

はてなブログのUTF-8化テスト

 はてなブログは、文字コードEUC_JPであったはてなダイアリーとは違い、UTF-8Unicode)でエンコーディングされているらしい。
 そこでこのはてなブログに、ハングル文字を貼り付けて投稿してみる。

크리스마스는 외국 명절입니다. 꼭 행복해야 되고나, 꼭 카플해야 돼 필요없다고 생각해. 가끔 혼자 외롭게 보내는 크리스마스도 되게 멋있고요, 카플들은 잘 보내실테니까, ** 한잔에 그럴 **** 분위기도 좋고 그런 크리스마스도 좋은 것같습니다. 저** 라디오하고 있을테니까, 라디오 들이시고요.

クリスマスは、外国の行事です。必ず幸せにならなければならないとか、必ずカップルでなければならないわけはないと思うよ。ときには、ひとりで淋しく過ごすクリスマスもけっこうすてきでしょう。カップルたちは楽しく過ごしているんですから、** 一杯? そんな *****雰囲気もよくて、そういうクリスマスもいいんじゃないでしょうか。ぼくは、ラジオをやってますから、ラジオを聞いてください。



クリスマスメッセージ|2007-12-24 - 처음처럼 - Like The First Time - koreaグループ
http://korea.g.hatena.ne.jp/yhlee/20071224#p1

■編集画面を開くと違いが分る

↓比較のため、はてなダイアリーでも同じハングル文字を貼り付けて投稿してみた。

↑記事の表示上は、特に問題ない。
↓しかし、編集画面を開くと違う。

現在のはてなダイアリーでもEUC-JP外の文字が使えないことはないが、保存時に数値文字参照に置き換えられてしまうので、後で修正しようと思ったときに面倒くさい。



はてなダイアリー文字コードがこの秋UTF-8に - しろもじメモランダム
http://d.hatena.ne.jp/mashabow/20111017/1318859594

本当だ…
f:id:mame-tanuki:20111113134553j:image

 一方で、はてなブログの編集画面は、ハングルが数値文字参照に置き換えられていない。
f:id:mame-tanuki:20111113135849j:image

■検索しても違いが分る

 これは編集画面だけの違いではない。恐らくブログ記事の検索結果にも違いが出る。
 EUC_JPで表示できない文字を数値文字参照してデータを格納するはてなダイアリーでは、例えば、上記のハングル文字を検索してもヒットしないはずだ。逆に、はてなブログではハングル文字でも検索できるはずだ。
 試してみると、やはりその通り。

 しかし、はてなブログの検索は、検索結果で対象文字がハイライト表示とかされないから、分りづらいよね…