kkamegawa's weblog

Visual Studio,TFS,ALM,VSTS,DevOps関係のことについていろいろと書いていきます。Google Analyticsで解析を行っています

Html Agility Pack

Html Agility Pack - Home
Webのスクレイピングに使えるはずのHtml Agility Pack。ちょっとした都合で使おうとしたら結構はまり。HtmlWebクラスではどうも正しくencodingを理解してくれない…みたい。ソースをちょっと見たのですが、これじゃうまくいかない…気がする。biacさんがconnectに書いたこの件も関連するかな。

このfeedbackの中で渋木さんが書いている、httpヘッダとコンテンツのエンコーディングが違うってのは、Apacheなんかで.htaccessファイルで一括で指定している環境があって、それを知らずにどこかのページがどこかから拾ってきたCGI使って出力した結果がshift-jisでしたって感じなんでしょうね、きっと。スクレイピングするときほんと迷惑なんですよね。
この世の中から少なくともWebではもうUTF-8以外のエンコーディングのページなくなってほしいと真剣に思いました…。なぜかって?それはテストに私のこの日記のページを使ったから、相当悩む羽目になったの!(はてなダイアリーeuc-jp)
#あ、うそ。いつの間によそのサイトのutf-8のtitleタグを正しく認識するようになったの?はてなダイアリー。今まで苦労していたのは一体…。