Floki快速入门：10分钟掌握HTML解析和节点搜索

张

张建站

2026/4/28 4:19:11

10分钟阅读

Floki快速入门10分钟掌握HTML解析和节点搜索【免费下载链接】flokiFloki is a simple HTML parser that enables search for nodes using CSS selectors.项目地址: https://gitcode.com/gh_mirrors/fl/flokiFloki是一个简单的HTML解析器支持使用CSS选择器搜索节点让开发者能够轻松提取和处理网页数据。无论你是需要抓取网页内容、分析HTML结构还是提取特定元素Floki都能提供简洁高效的解决方案。为什么选择FlokiFloki作为轻量级HTML解析工具具有三大核心优势简单易用直观的API设计无需复杂配置即可快速上手CSS选择器支持使用熟悉的CSS语法定位节点降低学习成本多解析器兼容默认使用高效的mochiweb_html解析器同时支持fast_html和html5ever等替代方案快速安装步骤1. 添加依赖在项目的mix.exs文件中添加Floki依赖defp deps do [ {:floki, ~ 0.38.0} ] end2. 安装依赖运行以下命令安装依赖mix deps.get3. Livebook/脚本环境安装如果在Livebook或脚本中使用可以直接通过Mix.install/2安装Mix.install([{:floki, ~ 0.38.0}])核心功能使用指南解析HTML文档使用Floki.parse_document/1函数解析HTML内容html html body div classcontainer h1Hello Floki/h1 p classcontentHTML parsing made easy/p /div /body /html {:ok, document} Floki.parse_document(html)使用CSS选择器查找节点Floki最强大的功能是支持CSS选择器语法查找节点# 查找class为content的p元素 Floki.find(document, p.content) # [{p, [{class, content}], [HTML parsing made easy]}] # 查找所有div元素下的h1元素 Floki.find(document, div h1) # [{h1, [], [Hello Floki]}]提取元素属性使用Floki.attribute/3函数提取元素属性# 提取所有a标签的href属性 Floki.attribute(document, a, href) # 先查找元素再提取属性 document | Floki.find(.container) | Floki.attribute(class) # [container]获取元素文本内容使用Floki.text/1函数提取元素文本document | Floki.find(h1) | Floki.text() # Hello Floki转换节点为原始HTML使用Floki.raw_html/1函数将节点转换回HTML字符串document | Floki.find(.content) | Floki.raw_html() # p class\content\HTML parsing made easy/p高级配置选择HTML解析器Floki支持多种HTML解析器可根据需求选择使用fast_html解析器推荐fast_html是基于lexbor的C语言解析器性能优异# 添加依赖 defp deps do [ {:floki, ~ 0.38.0}, {:fast_html, ~ 2.0} ] end # 配置解析器 config :floki, :html_parser, Floki.HTMLParser.FastHtml使用html5ever解析器html5ever是基于Rust的HTML5规范解析器# 添加依赖 defp deps do [ {:floki, ~ 0.38.0}, {:html5ever, ~ 0.16.0} ] end # 配置解析器 config :floki, :html_parser, Floki.HTMLParser.Html5ever支持的CSS选择器Floki支持丰富的CSS选择器语法包括选择器模式描述*匹配任何元素E匹配标签为E的元素E.class匹配class为指定值的E元素E#id匹配id为指定值的E元素E[attr]匹配具有attr属性的E元素E[attrvalue]匹配attr属性值为value的E元素E:nth-child(n)匹配父元素的第n个子元素EE F匹配E元素的直接子元素FE F匹配紧随E元素之后的F元素实际应用示例网页数据抓取# 获取网页内容需要HTTP客户端如HTTPoison {:ok, response} HTTPoison.get(https://example.com) {:ok, document} Floki.parse_document(response.body) # 提取所有文章标题 titles document | Floki.find(.article-title) | Floki.text() IO.inspect(titles)HTML结构分析# 分析页面中的链接分布 links document | Floki.find(a) | Floki.attribute(href) # 统计不同域名的链接数量 link_stats links | Enum.group_by(fn url - URI.parse(url).host end) | Enum.map(fn {host, urls} - {host, length(urls)} end) IO.inspect(link_stats)性能优化建议选择合适的解析器对于大型HTML文档推荐使用fast_html解析器按需解析只解析和处理需要的部分避免不必要的节点遍历缓存解析结果对相同的HTML内容缓存解析结果以提高性能总结Floki为Elixir开发者提供了简单而强大的HTML解析能力通过熟悉的CSS选择器语法让网页数据提取变得轻松高效。无论是简单的文本提取还是复杂的HTML结构分析Floki都能满足你的需求。通过本文介绍的安装步骤和基础用法你已经掌握了Floki的核心功能。现在就开始在你的项目中使用Floki体验高效HTML解析的乐趣吧更多详细API文档请参考项目中的Hex Docs。【免费下载链接】flokiFloki is a simple HTML parser that enables search for nodes using CSS selectors.项目地址: https://gitcode.com/gh_mirrors/fl/floki创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

蒙特卡洛风光场景并通过削减法聚类法得到几个典型场景（包含Matlab代码和Python代码实现）

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 ⛳️座右铭&a…...

2026/4/28 4:19:08 阅读更多 →

债务焚化重构术：测试工程师视角下的系统性技术债务清理指南

技术债务——软件质量的隐形熔断器在软件开发的漫长周期中，技术债务如同一个沉默的侵蚀者。它并非源于单一的错误，而是无数个微小的妥协、临时的解决方案和延迟的优化累积而成。对于软件测试从业者而言，技术债务的具象表现尤为清晰&#xff1…...

2026/4/28 4:19:00 阅读更多 →

终极指南：云编排工具如何重构运维自动化？

终极指南：云编排工具如何重构运维自动化？ 【免费下载链接】awesome-sysadmin A curated list of amazingly awesome open source sysadmin resources inspired by Awesome PHP. 项目地址: https://gitcode.com/gh_mirrors/awe/awesome-sysadmin G…...

2026/4/28 4:14:38 阅读更多 →

Arm Cortex-A520AE核心架构与优化实战解析

1. Arm Cortex-A520AE核心架构深度解析在汽车电子和工业控制领域，处理器的高效性与可靠性同样重要。Cortex-A520AE作为Armv9.2-A架构下的安全增强型核心，采用独特的双发射流水线设计，在保持低功耗的同时实现了可预测的实时性能。我曾参与过基…...

2026/4/28 1:18:38 阅读更多 →

015、使用AutoGen框架搭建多Agent对话系统

015、使用AutoGen框架搭建多Agent对话系统告别单打独斗，让多个智能体通过协作与对话，共同解决复杂任务。前言在上一篇《多Agent系统入门：协作与竞争的基础模型》中，我们探讨了多智能体系统的核心概念、基础架构以及简单的协作模式。你可能已经意识到，手动协调多个Agen…...

2026/4/28 3:08:33 阅读更多 →

大模型量化实战评测：GPTQ、GGUF、AWQ 在显存、速度与精度上的真实表现

1. 大模型量化技术入门：为什么我们需要量化？ 如果你尝试在消费级显卡上运行大语言模型，大概率会遇到显存不足的报错。比如用16GB显存的RTX 4080直接加载Qwen1.5-7B模型时，系统会无情地提示"CUDA out of memory"。这就是…...

2026/4/27 23:58:30 阅读更多 →

Display Driver Uninstaller终极指南：彻底清理显卡驱动的专业工具

Display Driver Uninstaller终极指南：彻底清理显卡驱动的专业工具【免费下载链接】display-drivers-uninstaller Display Driver Uninstaller (DDU) a driver removal utility / cleaner utility 项目地址: https://gitcode.com/gh_mirrors/di/display-drivers-u…...

2026/4/26 0:08:05 阅读更多 →