自动抓取
如何使用自动抓取功能快速填充链接信息
Hey,同学!手动填写链接信息太麻烦?这一篇教你自动抓取功能,轻松搞定!✨
🤔 自动抓取是什么?
当你输入一个网址时,系统会自动访问那个网站,然后把相关信息提取出来:
- 📝 标题 (title)
- 📄 描述 (description)
- 🖼️ 图标 (favicon)
💡 想象一下:自动抓取就像是「请个小帮手」,帮你把网站信息「复制」过来!
⚙️ 工作原理
1. 访问网站
系统发送 HTTP 请求到目标网站:
typescript
const response = await fetch('https://example.com');
2. 解析内容
从 HTML 中提取信息:
typescript
// 提取标题
const title = document.querySelector('title')?.textContent;
// 提取描述
const description = document.querySelector('meta[name="description"]')?.content;
// 提取 OG 图片
const ogImage = document.querySelector('meta[property="og:image"]')?.content;
3. 保存数据
提取完成后,保存到数据库。
📍 使用入口
在 admin 后台添加链接时:
text
URL: [输入网址] → [自动抓取按钮]
🎯 支持的字段
| 字段 | 来源 | 说明 |
|---|---|---|
| 标题 | <title> 或 og:title | 网站名称 |
| 描述 | meta[description] 或 og:description | 网站简介 |
| 图标 | rel="icon" 或 og:image | 网站图标 |
⚠️ 注意事项
1. 跨域限制
有些网站有反爬机制,可能抓取失败:
- 登录后才可见的内容
- 需要 JavaScript 渲染的内容
- 限制爬虫的网站
2. 隐私考虑
自动抓取会访问目标网站,请:
- 不要抓取敏感网站
- 遵守网站的 robots.txt
3. 频率限制
不要短时间内大量抓取,可能会被临时封禁。
💡 使用建议
1. 先试后用
第一次使用自动抓取时,建议:
- 手动填写一个
- 再用自动抓取一个
- 对比结果,确认正常
2. 补充手动
自动抓取可能不完美,手动补充很重要:
- 修改不准确的标题
- 补充缺失的描述
- 更换更好看的图标
3. 定期更新
网站信息可能会变,定期「重新抓取」可以更新到最新信息。
🔧 失败处理
常见失败原因
| 原因 | 解决方法 |
|---|---|
| 网站无法访问 | 手动填写 |
| 反爬机制 | 手动填写 |
| 解析失败 | 手动填写 |
| 超时 | 重试或手动 |
手动备选
自动抓取失败时,可以手动填写:
text
标题: GitHub
描述: 全球最大的代码托管平台
🔗 下一步
🕷️ 自动抓取,省时省力!但也要记得「检查和补充」哦~