ジーナ・トラパーニ著
あなたは、次のようなオンライン サービスを使用して、Web ページを熱心にブックマークしたりクリップしたりしています。美味しい、Google ノートブックまたは掘る。確かに、データを Web 上に保存することは、どのオンライン コンピュータからでもアクセスできるようにするのに最適ですが、安価で巨大なハード ドライブと強力なデスクトップ検索の時代において、Web 上に保存しているデータをコンピュータに複製してはどうでしょうか?こうすることで、ブックマークしたときに表示されたすべての Web ページのコピーが保持され、オフラインの場合でも研究の検索可能なアーカイブが得られます。
私のお気に入りのコマンド ライン ツール wget を使用すると、del.icio.us リンク、diggs、または公開 Google ノートブックのページのコンテンツをハード ドライブに自動的かつ効率的にダウンロードできます。
ウィゲット 101
初心者の皆さん、私の様子を覗いてみてくださいwget の最初のチュートリアル。ここでは、wget の仕組み、ダウンロード場所、wget コマンドの形式についての背景が得られます。
経験豊富なウィゲッターたち、私と一緒に来てください。
del.icio.us ブックマークをアーカイブする
ソフトウェアの現状に関するプレゼンテーションが予定されており、del.icio.us ブックマークの「ソフトウェア」タグにそのトピックに関する調査結果を収集しているとします。からリンクされているすべてのドキュメントをダウンロードします。https://del.icio.us/ginatrapani/so…次のコマンドを使用してページを開きます (改行なし)。
wget -H -r --level=1 -k -p -erobots=off -np -N --exclude-domains=del.icio.us,doubleclick.net https://del.icio.us/ginatrapani/software
このスクリプトの実行方法:https://del.icio.us/ginatrapani/software を del.icio.us ユーザー名と目的のタグに置き換えます。 「del.icio.us archive」という新しいディレクトリを作成し、コマンド ラインでそのディレクトリから編集したバージョンのスクリプトを実行します。 (さらに良いのは、コマンドをコピーしてテキスト ファイルに貼り付け、必要に応じて調整し、スクリプト (Windows ユーザーの場合は .bat、Mac ユーザーの場合は .sh) として保存します。その後、それを入力する代わりにスクリプトを実行します。コマンドが完了すると、del.icio.us リンク内の各ドメインにちなんだ名前のディレクトリが設定され、その中にファイルが保存されます。
内訳:このコマンドは、wget に https://del.icio.us/ginatrapani/software からリンクされているすべてのドキュメントを取得するように指示します。
-H: ホスト全体を意味し、del.icio.us から他のサイトへのすべてのリンクを取得します。
-r: 再帰的に
—level=1: 1 レベルで、それらのページがリンクしているすべてのドキュメントを取得しないようにします。
-k: ページのローカル コピーへのリンクに変換されたローカル コピー リンクを使用します。
-p: ページを完全に構築するためにすべての画像とその他の補助ファイルを取得します。
-erobots=off: robots.txt ファイルを無視してダウンロードするだけです
-np: 親ディレクトリ (またはすべての ginatrapani のブックマーク) に移動しません。
-N: すでにダウンロードされているファイルよりも新しいファイルのみをダウンロードします
—exclude-domains=del.icio.us,doubleclick.net: 広告をダウンロードしたくないため、他の del.icio.us ページと doubleclick.net の広告サーバーへのリンクを除外します。
それが飲み込みにくい場合は、自分の del.icio.us ブックマークを指定してコマンドを実行してください。信じてください、効果があります。
あるいは、ダウンロードを 1 つのタグに制限する代わりに、次のコマンドを使用して (改行を省略して) すべての del.icio.us ブックマークを取得します。
wget -H -r --level=1 -k -p -erobots=off -np -N --exclude-directories=ginatrapani --exclude-domains=del.icio.us、doubleclick.net https://del。 icio.us/ギナトラパニ
このコマンドと最後のコマンドの唯一の違いは、wget がすべてのタグ フォルダーを不必要にダウンロードしないようにする「—exclude-directories=ginatrapani」ディレクティブが含まれていることです。
誰かの発掘物をアーカイブする
Kevin Rose が掘ったすべてのストーリーをアーカイブしたいとします。 wget コマンドは次のようになります (改行なし)。
wget -H -r --level=1 -k -p -erobots=off -np -N --exclude-domains=digg.com、doubleclick.net、doubleclick.com、fastclick.net、fmpub.net、tacoda。 net、adbrite.com、sitemeter.com https://digg.com/users/kevinrose/dugg
上記のコマンドと同様に、このコマンドはさらに多くの広告サーバーを除外し (ハード ドライブがバナー広告画像でいっぱいになることを防ぎます)、kevinrose の発掘ページを指します。
公開 Google ノートブックをアーカイブする
Google ノートブックこれは、Web ページのセクションをクリップしてオンラインでメモを作成し、そのノートを公開するのに最適な方法です。ウェブ上で見つけた航空関連の名言をまとめた公開 Google ノートブックを持っており、オフライン時に使用できるようにローカルにアーカイブしたいとします。 wget にそのノートブックを指定し、次のコマンドでページを aviationquotes-notebook.html に保存するように指示します。 (改行は省略してください。)
wget -k -p -erobots=off -np -N -nd -O aviationquotes-notebook.html https://www.google.com/notebook/public/18344006957932515597/BDSKUIgoQ9K_Emdkh
Web をローカルにアーカイブするためのヒントとテクニック
使用Google デスクトップまたは Mac OS X の Spotlight を使用して、ダウンロードしたブックマークや Web クリップの内容を検索します。 Mac を使用している真剣な研究者は、ダウンロードしたドキュメントをデボン考える同じように。
ダウンロードしたページを x 時間後に期限切れにします。過去 2 週間に Kevin が掘り出したものをすべて読みたい場合は、次のコマンドを使用してダウンロード フォルダーをクリーンアップしてください。ハードドライブ管理人、古いファイルが削除されます。
を使用して wget ダウンロードの自動実行をスケジュールします。Windows タスク スケジューラまたは OS X および Linux では cron です。
いつも使っている信頼できる wget レシピはありますか?または、ここで紹介されている内容について質問がありますか?コメント欄にぜひご連絡ください。
ジーナ・トラパニライフハッカー編集者は、分散した個人データがキラーアプリであると考えています。隔週の彼女の特集、生きるオタクは毎週水曜日と金曜日にライフハッカーに掲載されます。購読するGeek to Live フィードニュースリーダーで新しい記事を入手するには、