转载

Java|分页爬取表情包图片

欢迎点击「算法与编程之美」↑关注我们！

本文首发于微信公众号："算法与编程之美"，欢迎关注，及时了解更多此系列文章。

1 前提简介

前面讲过了如何对文章小说的分目录，分章节爬取保存，下面将讲述对当前热门的表情包进行分页，分类爬取。

2 简单查看

下面是一个表情包网站的首页，并且分了很多类别。

Java|分页爬取表情包图片

图2.1 表情包首页

而且有很多页数。

Java|分页爬取表情包图片

图2.2 不同页

经过观察，每一页的url只有最后代表页数的数字变了，那就可以从这里下手，多页爬取。

图2.3 区别

3 代码及注释

下面就来看看详细的代码和注释吧，还是温馨提醒注意xpth以及url书写正确哦。

// 引入的包，略

public class GetPicture1 implements PageProcessor {

// 定义一个变量用来表示需要下载的总页数

private static int size = 3;

// 定义一个变量用来表示起始页

private static int number = 1;

// 声明一个用来存储需要下载的 url 路径的集合

private static List<String> listUrl = new ArrayList<String>();

// 对所要爬取的页面进行相关设置

private Site site = Site.me()

.setCharset("utf-8")

.setSleepTime(1000)// 休眠时间

.setTimeOut(1000);// 超时时间

@Override

public Site getSite() { return site; }

// 爬取数据的逻辑

@Override

public void process(Page page) {

// 获取 url

Selectable url = page.getUrl();

//url 匹配

if(url.regex("https://www.doutula.com/article/list///?page=//d*").match()){// 列表页

// 获取页面

Html html = page.getHtml();

// 解析页面获取相关信息 ( 获取所有的标题 url)

List<String> urls = html.xpath("[@class='container_']/div[1]/div[1]/div[2]/a").links().all();

if(number > size + 1){

return;

}

urls.add(listUrl.get(number - 1));

// 下一页

number++;

// 将连接放入待爬取序列

page.addTargetRequests(urls);

}else{

// 爬取图片获取页面

Html html = page.getHtml();

// 获取表情包组的名称

String title = html.xpath("[@class='container_']/div[1]/div[1]/div[2]/li/div[1]/h1/a/text()").toString();

// 获取表情包图片的链接 //

List<String> pictureUrl = html.xpath("[@class='container_']/div[1]/div[1]/div[2]/li/div[2]/div/table/tbody/tr/td[1]/a/img/@src").all();

// 下载到本地

downPicture(pictureUrl,title);

}

// 将图片下载到本地

private void downPicture(List<String> pictureUrl, String title) {

for(int i=0;i<pictureUrl.size();i++){

// 获取每一张图片连接

String link = pictureUrl.get(i);

// 做一个非空判断

if(link == null || link == ""){

return;// 结束

}

try {

// 将连接字符串封装成一个 URL 对象

URL url = new URL(link);

// 获取网络连接

HttpURLConnection conn = (HttpURLConnection)url.openConnection();

// 获取一个输入流

InputStream in = conn.getInputStream();

// 指定图片目录存储的位置

File file = new File("D://doutula//" + title);

// 判断目录是否存在

if(! file.exists()){

// 创建多级目录

file.mkdirs();

}

// 自定图片的位置

File file2 = new File("D://doutula//" + title + "//" + i + ".jpg");

// 输出流

FileOutputStream fos = new FileOutputStream(file2);

ByteArrayOutputStream outStream = new ByteArrayOutputStream();

// 定义一个缓冲区

byte[] buf = new byte[1024];

// 定义一个标记用于判断有没有读完

int len = 0;

// 循环读取

while((len = in.read(buf)) != -1){

outStream.write(buf,0,len);

}

System.out.println(" 下载完毕 ");

// 写出到本地

fos.write(outStream.toByteArray());

// 关闭资源

in.close();

outStream.close();

fos.close();

} catch (Exception e) {

e.printStackTrace();

}

// 生成所有下载页的 url 列表，通过 size 控制的页数

public static List<String> listUrl(int num){

List<String> list = new ArrayList<String>();

// 循环往列表中添加 url

for(int i=1;i<=num;i++){

list.add("https://www.doutula.com/article/list/?page=" + (i+1));

}

return list;

}

// 主程序的入口、线程

public static void main(String[] args) {

// 获取所有需要下载页的 url

listUrl = listUrl(size);

Spider.create(new GetPicture1()).thread(1).addUrl("https://www.doutula.com/article/list/?page=1").run();

}

这样，就能拿到大量的热门表情包了，只要敢去“new”，“Java”都能感想敢做。

END

主编 | 张祯悦

责编 | 黄晓锋

where2go 团队

微信号：算法与编程之美

长按识别二维码关注我们!

温馨提示：点击页面右下角 “写留言”发表评论，期待您的参与！期待您的转发！

原文 http://mp.weixin.qq.com/s?__biz=MzI5MTQ5NDY1MA==&mid=2247489978&idx=3&sn=4b357dabbd16a7056d73d23c498ee3d3

正文到此结束

所属分类：编程技术 Java

本文标签： URLs 文章 tar 时间 setTimeout IO 目录标题 Select ACE 代码分页图片网站解析 http stream https IDE 二维码微信公众号 cat HTML src ArrayList tab 数据 list 下载线程注释 Connection id java UI
版权声明： 本文为互联网转载文章，出处已在文章中说明(部分除外)。如果侵权，请联系本站长删除，谢谢。
本文海报： 生成海报一生成海报二

其他链接

关于本站

本站定位：个人技术类博客

本站作用：写博客、记日志、闲聊扯淡鼓捣技术。

问题交流

Java|分页爬取表情包图片

热门推荐

相关文章

说给你听

本文目录

随机标签

书籍教程

近期评论

网站信息

其他链接

关于本站

问题交流