kkamegawa's weblog

Visual Studio,TFS,ALM,VSTS,DevOps関係のことについていろいろと書いていきます。Google Analyticsで解析を行っています

i18nと文字比較

404 - ファイルまたはディレクトリが見つかりません。
いやもうほんとに。考えるとほんとに頭痛いですね、検索。バイナリ一致だと、重複コードや異体字の扱いで言われそうなのもやだなぁと。
ちょっと前、VB研でお話したときに別の目的で「鄢(U+9ED1,WindowsのShift-JISでは0xFC4B)」を例に出したのですが、検索してみると各社結果が変わります。

GoogleおよびLive Search

黒木瞳さんのオフィシャルページ(http://www.kurokihitomi.net/)が上位に出てきます。もちろん「鄢」が入るページも結果に含まれます。

goo,yahoo

検索できません。□になって「検索できません」といわれます。JIS X 0208:1990に入っていない文字を無視しているのでしょうか。

excite

"k"での検索結果が出てきます。読みでがんばってみようというところでしょうか。

まとめ

MS IME2007の文字パットでは鄢は黒の異体字*1であるとされているので、GoogleLive Searchに関しては検索エンジンがちゃんとひっかけているんですね。異体字まで面倒見るってちょっと感心。
ただ、人名の場合、利用者から見れば異体字を同一視するのはうれしくないこともあるので、その辺が面倒な場合があります。(隠し)オプションであったりして?

*1:文字の由来が本当にそうかどうかはここでは触れません