元宇宙非小号金色财经交流群社区官网

Python爬虫RoboBrowser登录及数据抓取

浏览:205|时间:2023-06-12 14:50:50
RoboBrowser是一个简洁的Python库,提供在没有web浏览器的情况下访问web的功能。RoboBrowser可用于获取网页、单击链接、按键以及填写表单并提交表单。如果需要与没有API的web服务交互,RoboBrowser可以很好地协助完成任务。

```python from robobrowser import RoboBrowser

# 创建RoboBrowser br = RoboBrowser()

# 打开datacoup登录详细地址 br.open("https://datacoup.com/signin")

# 获取登录表单 form = br.get_form()

# 填写邮箱和密码 form["email"] = "FILL_USERNAME_IN" form["password"] = "FILL_PASSWORD_IN"

# 提交表单 br.submit_form(form)

# 获取登录后的网页页面结论返回信息 src = str(br.parsed)

# 配对开始与结束的部位 htmlstart = "Earned:" end = ""

# 应用正则表达式开展配对回到结论 result = re.search("%s(.*)%s"%(start,end),src).group(1)

# 输出结果 print(result) ```

下面展示另一个例子,模拟浏览音乐平台以查看歌曲信息。

```python from robobrowser import RoboBrowser

# 访问RapGenius网址 browser = RoboBrowser(history=True) browser.open("http://rapgenius.com/")

# 获取表单 form = browser.get_form(action="/search") print(form)

# 输入关键字 "queen" 进行搜索 form["q"].value = "queen" browser.submit_form(form)

# 获取第一首歌曲的信息 songs = browser.select(".song_name") browser.follow_link(songs[0])

# 浏览歌曲详细信息 lyrics = browser.select(".lyrics") print(lyrics[0].text)

# 回到查询记录页面 browser.back()

# 查看我最喜欢的歌曲 browser.follow_link("deathontwolegs")

# 应用正则表达式搜索lyrics的文字信息 lyrics = browser.find(class_=re.compile(r"\blyrics\b")) print(lyrics.text) ```

以上是RoboBrowser学习教程的一部分,更多内容请关注我的公众号二维码。

python yt 数据

本站分享的区块链、Web3.0元宇宙、NFT、数字藏品最新消息等相关数藏知识快讯NFR资讯新闻,与金色财经非小号巴比特星球前线Btc中国官网无关,本站资讯观点不作为投资依据,市场有风险,投资需谨慎!不提供社区论坛BBS微博微信交流群等相关币圈信息发布!
本站内容来源于互联网,如存在侵权及违规内容投诉邮箱( [email protected] )
皮卡丘 2021-2024© YangKaTie.Com All