18 3月
Y社案件の「①PPI案件概要取得」を改造して、2017年度に公示された全案件の「入札公告等」「経過ファイル」をPDFでダウンロードするシナリオの作成お願いします。
【検索画面設定】
- 国の機関
- 国土交通省
- 全地整
- 2017/4/1 ~ 2018/3/31
公開終了になる前に経過PDFファイルを保存ておきたいだけですが、整理して保存していかないと後で整理が大変になると思われるため、以下のフォルダ構成で保存して行ってもらえますでしょうか。
¥シナリオフォルダ¥過去データ¥地整名¥公告日¥業務名¥XXX.pdf
- 過去データ:固定フォルダ名
- 地整名:小分類の地方整備局名
- 公告日:日付
各案件の下のほうにある「入札公告等」表、「入札経過」表の公開中リンクの先にあるpdfファイルを全て保存します。
2 Comments;
お世話になっております、大河です。
ご報告が遅くなり申し訳ありませんでした。
お送りしたシナリオについてです。
以下で宜しいか確認させてください。
■シナリオについて
(1)ダウンロードしたPDFファイルのファイル名には、案件概要ページの公開中リンクの左側にある「文書名称」をそのまま使用しています。
ただ、稀に同じ文書名称で公開中リンクが二つ存在していることがあり、この場合、同一ファイル名となってしまうため、こちらでダウンロード順に番号を付与しています。
(例:「入札公告(1).pdf」)
(2)業務名にフォルダ名使用不可文字(\:/*?”<>|)が含まれている場合がありました。
この場合は、使用不可文字は一律削除するようにしました。
(3)公開中のファイルがない場合(公開終了のファイルしかない場合も含む)ですが。業務名フォルダも未作成がいいのでしょうか?
現在は、とりあえず作成していてフォルダ内は空という状態になっています。
(4)対象のファイルは一律、拡張子を.pdfでダウンロードしておりますが、一部、PDFファイルではなく、HTMLファイルが存在しています。
ただ、処理のなかで拡張子を判定することが難しく、HTMLファイルについてはダウンロード後に手動で拡張子を.htmlに変更する必要があります。
(HTMLファイルは、ファイルサイズが小さめ、かつ、AcrobatReaderが開こうとするとエラー表示されるので分かります)
(5)一部、公開中リンクのHref情報が、サイトURL(例:http://www.kkr.mlit.go.jp/n_info/sougouhyouka_kekka/index.html)となっているものが存在しており、この場合、HTTPダウンロードはできないので、スキップしております。
あと、すみません。
技術的な質問を一点させてください。
(1)ノードの「Excel操作」だとうまく値を取得できない場合がありました。
(セル幅が足りず、表示上”#####”となっている場合、実際の値でなく”#####”で取得されてしまう)
今回は、ライブラリにある「Excel操作(値の取得)」で正しく取得できたが、ノードの「Excel操作」で上手く取得できる方法はあったりするのでしょうか。
以上、宜しくお願い致します。
ご質問の件、下記に回答させて頂きます。
(1)承知しました。連番に関しても問題無いかと思います。
(2)承知しました。
(3)現在のフォルダだけ作成する仕様で大丈夫です。
(4)承知しました。
(5)PDFファイルでないものはどうしよ言うも無いので大丈夫かと思います。
また、ご質問の件ですが、Excelのセルに入りきらなかった場合にExcel特有の#####等で取得されてしまいます。既知の現象で直すつもりもないようです。Excelで表示されている通りに取得するのがノードのExcelからの取得機能だと思ってもらうしかないかと思います。