kkamegawa's weblog

Visual Studio,TFS,ALM関係のことについていろいろと書いていきます。Google Analyticsで解析を行っています

SGMLReaderを使ったC#でのスクレイピング

ちょっととあるサイトのスクレイピングしようと思って、Html Agility Packをダウンロードした…のですが、なんかめんどくさい。一応使えそうなんですが、もう一息という感じ。次の2.0ではLINQ to HTMLプロパイダくらいになればいいのに。
もちっとちゃんとした、LINQ to htmlとかないかなーとか思って探してみると、neueさんのところでSGMLReaderが紹介されていました。
neue cc - C#でスクレイピング:HTMLパース(Linq to Html)のためのSGMLReader利用法
これで簡単にHTMLをXMLにしてしまえるので、後はさくっとLINQ to XMLで抽出ですね。とはいっても、最近のサイト構造複雑で、どうクエリを書いたらいいのかここから始まるのですが(^^;。