Semalt Expert的Chrome Web Scraper教程

如果您使用的是Google Chrome浏览器,则您的浏览器有一个扩展程序,可以帮助您抓取网页。它被称为“ Scrapper”,可以毫无问题地加以利用。报废者将协助抓取网站内容并将结果上传到Google文档。
如何使用Scraper扩展程序抓取网站?
1.在Google Chrome浏览器中选择Chrome网上应用店;
2.在扩展名中,搜索“ Scrapper”;
3.第一个搜索结果是扩展名“ Scrapper”;
4.选择列为“添加到Chrome”的按钮;
5.回到英国国会议员名单;
6.单击以下链接 ;
7.现在寻找一张MP,并确保该条目已标记;

8.右键单击以选择“抓取相似...”选项;

9.刮板控制台将在另一个窗口中弹出。
10.在刮板控制台中查看刮取的内容;
11.为确保内容另存为Google Spreadsheet,请选择“保存到Google文档...”
长时间刮
在坚持此食谱之前,了解HTML的基础很有用。例如,您可以通过此链接阅读HTML的简短介绍。
让我们想象一下,我们对由意大利著名女演员Asia Argento主演的所有电影都感兴趣。
1. IMDB中有一个非常详细的参与者档案。亚洲Argento网站是:http://www.imdb.com/name/nm0000782/;
2.在这里,您可以查看女演员扮演的所有角色。让我们开始废弃我们感兴趣的信息;
3.尝试按照上述方法刮擦它;
4.您会看到列表有些失真。这是由于以下事实:这里的列表可以有不同的结构。
5.转到刮板控制台。左上角,您会看到一个小框,上面写着XPath;
6. Xpath是一种查询语言,适用于XML和HTML。
7. XPath可以帮助您找到感兴趣的页面部分。接下来的事情是找到一个适当的元素并为其编写XPath。
8.现在让我们安排桌子。
9.您将看到我们现有的XPath具有“ // div [3] / div [3] / div [2] / div”;
10. XPath通知系统查看HTML文档,并选择第三个元素,然后选择第二个元素,然后选择所有元素;
11.但是,我们希望将数据分离出来;
12.利用控制台中的column部分进行抓取,以完成此操作;
13.首先让我们找到标题–。使用Inspect Element查看标题。
14.检查标签内的标题。将标签添加到XPath;

15.该表达式似乎可以正常运行,因此请使其成为第一列;
16.在“列”部分中,将第一列的名称替换为“标题”;
17.向其中添加XPath;
18.在列部分中,XPath是相对的,这意味着“ ./b”将选择<b>元素
19.在XPath for title列中,添加“ ./b”并选择“ scrape”;

20.现在,让我们继续一年。在一个跨度内可以找到年份;
21.通过选择标题列旁边的小加号来创建新列;
22.使用XPath“ ./span”为“ year”创建一列;
23.单击scrape并查看如何添加年份;
24.完成!