Semalt Expert的Chrome Web Scraper教程

如果您使用的是Google Chrome浏览器,则您的浏览器有一个扩展程序,可以帮助您抓取网页。它被称为“ Scrapper”,可以毫无问题地加以利用。报废者将协助抓取网站内容并将结果上传到Google文档。

如何使用Scraper扩展程序抓取网站?

1.在Google Chrome浏览器中选择Chrome网上应用店;

2.在扩展名中,搜索“ Scrapper”;

3.第一个搜索结果是扩展名“ Scrapper”;

4.选择列为“添加到Chrome”的按钮;

5.回到英国国会议员名单;

6.单击以下链接

7.现在寻找一张MP,并确保该条目已标记;

8.右键单击以选择“抓取相似...”选项;

9.刮板控制台将在另一个窗口中弹出。

10.在刮板控制台中查看刮取的内容;

11.为确保内容另存为Google Spreadsheet,请选择“保存到Google文档...”

长时间刮

在坚持此食谱之前,了解HTML的基础很有用。例如,您可以通过此链接阅读HTML的简短介绍。

让我们想象一下,我们对由意大利著名女演员Asia Argento主演的所有电影都感兴趣。

1. IMDB中有一个非常详细的参与者档案。亚洲Argento网站是:http://www.imdb.com/name/nm0000782/;

2.在这里,您可以查看女演员扮演的所有角色。让我们开始废弃我们感兴趣的信息;

3.尝试按照上述方法刮擦它;

4.您会看到列表有些失真。这是由于以下事实:这里的列表可以有不同的结构。

5.转到刮板控制台。左上角,您会看到一个小框,上面写着XPath;

6. Xpath是一种查询语言,适用于XML和HTML。

7. XPath可以帮助您找到感兴趣的页面部分。接下来的事情是找到一个适当的元素并为其编写XPath。

8.现在让我们安排桌子。

9.您将看到我们现有的XPath具有“ // div [3] / div [3] / div [2] / div”;

10. XPath通知系统查看HTML文档,并选择第三个元素,然后选择第二个元素,然后选择所有元素;

11.但是,我们希望将数据分离出来;

12.利用控制台中的column部分进行抓取,以完成此操作;

13.首先让我们找到标题–。使用Inspect Element查看标题。

14.检查标签内的标题。将标签添加到XPath;

15.该表达式似乎可以正常运行,因此请使其成为第一列;

16.在“列”部分中,将第一列的名称替换为“标题”;

17.向其中添加XPath;

18.在列部分中,XPath是相对的,这意味着“ ./b”将选择<b>元素

19.在XPath for title列中,添加“ ./b”并选择“ scrape”;

20.现在,让我们继续一年。在一个跨度内可以找到年份;

21.通过选择标题列旁边的小加号来创建新列;

22.使用XPath“ ./span”为“ year”创建一列;

23.单击scrape并查看如何添加年份;

24.完成!

send email