Daily Archives: 2012年5月15日

[PHP]htmlからxmlに変換する関数群 : html2xml

2012年5月15日 (カテゴリ: PHP:)

phpでスクレイピングしたい時、htmlからxmlへの変換方法をいつも調べるので、 備忘録代わりに変換関数を作成しました。 この手の変換は、作るプログラムによって元ネタがurlだったりhtml文字列だったりします。 また変換先もxmlテキストが欲しいときやDOMDocumentが欲しいなど様々です。 という訳で、冗長ですが全パターン用意しました。 変換パターンによっては、中身がPHPの関数1行だけというラッパーになっている場合も有りますが、網羅しておいたほうが一覧性が良いかと思い、あえて用意しています。 変換可能なパターンは以下通りです。 url -> html文字列 url ->…


続きを読む

[C#]WebBrowserコントロールを使用して、指定したサイト全体の画像を取得(DLL化しました)

2012年5月15日 (カテゴリ: C#:)

WebBrowserコントロールを使用して、プログラムから指定したサイト全体の画像を取得します。 サンプルコードは、以下の通り。 using System; using System.Drawing; using System.Runtime.InteropServices; using System.Windows.Forms; using System.Runtime.InteropServices.ComTypes;   namespace SiteCaptureSharp { //*******************************************…


続きを読む

コマンドラインから,指定したURLのページ全体の画像を保存する

2012年5月15日 (カテゴリ: 未分類:)

特定のWebサイトの内容全体を、コマンドラインからjpgファイルとして取得したかったのですが、 やりたい事を実現できそうなソフトが無さそうだったので、自作してみました。 例えば、以下のコマンドを実行すると… CaptureSiteToJpg.exe /url http://www.yahoo.co.jp/ /out yahoo.jpgCaptureSiteToJpg.exe /url http://www.yahoo.co.jp/ /out yahoo.jpg このように、ページ全体の画像をjpgファイルとして取得する事が出来ます。 縦に長いページでも、途中で切れる事はありません。…


続きを読む

[C#]WebBrowserコントロール使用時、”Webページへのナビゲーションは取り消されました”エラーが出る時は?

2012年5月15日 (カテゴリ: C#:)

WebBrowserコントロールを使用してNavigate()でサイトにアクセスした時、 “Webページへのナビゲーションは取り消されました”エラーが出る時があります。 その原因は多分…、指定したURLが間違ってます。 (例えば、http://www.yahoo.co.jp/ではなく、http://wwww.yahoo.co.jp/を指定したとか…) 初歩的なミスですが、気づかずにしばらく悩んでしまったので、備忘録としてのメモです。


続きを読む

[C#]現在のスレッドはシングル スレッド アパートメントでないため… エラーが出たときの対処法

2012年5月15日 (カテゴリ: C#:)

コンソールアプリで、WinFormのコントロールを使用すると以下の例外が発生します。 System.Threading.ThreadStateException はハンドルされませんでした。 Message=現在のスレッドはシングル スレッド アパートメントでないため、ActiveX コントロール ‘xxxx’ をインスタンス化できません。 Source=System.Windows.Forms StackTrace: 場所 Program.Main(String[] args) 場所 Program.cs:行 33 場所 System.AppDomain._nExecuteAssembly(…


続きを読む