在Linux系统中安装和使用Photon抓取工具的方法_Linux软件

本文介绍在Linux系统中安装和使用Photon抓取工具的方法，可以使用Photon抓取工具提取网站网址、电子邮件、文件和帐户。

简介

Photon是一个用Python编写的令人难以置信的快速站点爬虫，用于从目标中提取网址，电子邮件，网站帐户等等，Photon能够处理每秒160个请求。

Photon能够在抓取时提取以下类型的数据：

提取范围内和范围外的URL以及带参数的URL。

其中包含JavaScript文件和端点。

可以根据自定义正则表达式模式提取字符串。

提取电子邮件，社交媒体帐户等。

提取文件：pdf，png，xml等。

Photon提取的数据以有组织的方式保存，比如

$ ls -1 X(X为一级域名网址)

endpoints.txt

external.txt

files.txt

fuzzable.txt

intel.txt

links.txt

scripts.txt

所有文件都保存为文本以便于阅读。

相关链接

Photon项目地址

在Linux中安装和使用Photon

Photon项目在git上可用，通过运行clone：

$ git clone https://github.com/s0md3v/Photon.git

Cloning into 'Photon'...

remote: Counting objects: 417, done.

remote: Compressing objects: 100% (22/22), done.

remote: Total 417 (delta 20), reused 42 (delta 20), pack-reused 374

Receiving objects: 100% (417/417), 151.42 KiB | 201.00 KiB/s, done.

Resolving deltas: 100% (182/182), done.

更改为Photon并开始使用Photon脚本：

$ cd Photon

$ chmod +x photon.py

使用选项--help时，会出来帮助页面，以下是可用选项：

用法：photon.py [options]

参考：在MacOS和Linux下直接运行.py文件的小方法。

选项：

-u --url：root url

-l --level：levels to crawl

-t --threads：number of threads

-d --delay：delay between requests

-c --cookie：cookie

-r --regex：regex pattern

-s --seeds：additional seed urls

-e --export：export formatted result

-o --output：specify output directory

--timeout：http requests timeout

--ninja：ninja mode

--update：update photon

--dns：dump dns data

--only-urls：only extract urls

--user-agent：specify user-agent(s)

一个基本用法示例：

$ ./photon.py -u https://github.com

在Linux系统中安装和使用Photon抓取工具的方法

-u选项用于指定根URL。

完成后，应创建具有站点名称的目录：

在Linux系统中安装和使用Photon抓取工具的方法

使用10个线程进行爬网，级别4并将数据导出为json：

$ ./photon.py -u https://github.com -t 10 -l 3 --export=json

生成包含目标域的DNS数据的映像：

$ ./photon.py -u http://example.com --dns

目前，如果目标是子域，则它不起作用。

更新Photon的方法

要更新Photon，请运行以下命令：

$ ./photon.py --update

在Linux系统中安装和使用Photon抓取工具的方法