リストHOME  リストOpen Source

HTML構文解析

概要

 HTMLの構文解析(パーサー)のサンプルとして、HTMLファイルを読み取り、週間天気予報の情報を取得するサンプルを紹介したいと思います。今回のサンプルはSJISのHTMLファイルのみの対応となっています。

 他の文字コードへの対応は、これまでに公開している、コード判定と、コード変換のサンプルを組合せれば、利用できるようになると思いますので、皆さんの方で対応してみてください。

 構文解析のパーサーは基本的に、SGML(Standard Generalized Markup Language)に準拠したものをベースに作成しているので、SGMLに準拠したマークアップ言語であれば、XMLなどにも比較的小規模の変更で、利用できるかと思います。

 またサンプルには、WebBrowserコントロールを使用した、簡易ブラウザを実装しています。WebBrowserコントロールを利用 (コントロールの追加方法)すれば、非常に簡単にブラウザ機能を実装することが可能になります。

 通販事業を展開している会社などであれば、サンプルを応用して、ライバル会社の商品ページの価格情報を取得し、価格調査アプリなどを開発してみても面白いのではないでしょうか。

 ソースコードは、Microsoft社の製品 エクセル向けに書いたものなので、利用するには、ご使用のコンピュータに、エクセルがインストールされていることが、必須条件です。


 以下は、サンプル画面です。

HTML構文解析のサンプル


SGMLについて

 SGML(Standard Generalized Markup Language)は、一言でいうと、マークアップ言語の文法などを標準化したもので、これを拡張したものがHTMLやXMLです。XMLについては、DTD(Document Type Definition)を記述することで自由にタグを定義することも可能です。


技術ポイント



改善案

 文字コード変換、コード判定機能を追加し、SJIS以外の文字コードへの対応。



ダウンロード

サンプルデータについて

 サンプルに含まれるデータは、私の創作によるものです、サンプルデータに含まれる個人名、会社名などの情報は、実在の人物とはまったく関係ありません。



免責事項

 作者は、本ソフトウェアの使用または使用不能から生じるコンピュータの故障、情報の消失、その他あらゆる直接的及び間接的被害に関して一切の責任を負いません。



不具合の報告

 ご使用にあたり、改善の要望、不具合の発生等ありましたら、画面下のアドレスまで、ご連絡頂きますよう、宜しくお願いいたします。ご面倒、ご不便をお掛けしますが、宜しくお願いいたします。




休日判定・ページのフッター
管理者のメールアドレス