我的400篇博客都写了些什么
源起
快要 400 篇博文了(实际这是第397篇),看到 《我的博客都写了些什么》 和 《这18年土木坛子博主在关注什么领域和话题?》 里总结了博客话题,感觉很好玩,尤其是把几百篇博文的标题生成纯文本文档喂给AI,让其提炼出最主要的关键词,非常高效,于是我也想分析一番。
总结
先看看ChatGPT对我的分析,我感觉还是挺准确的~
旅行:春节自驾游、东莞、深圳、香港等地的旅游经验与攻略。
生活:亲子活动、家庭生活、购物、文化体验、香港日常生活等。
教育:香港幼儿园面试经验、儿童教育、家庭教育规划等。
科技:Deepseek、AI工具、智能家居等技术应用。
健康:健身、减肥、体能训练、运动会等。
文化:博物馆参观、书展、音乐会等文化活动。
金融:香港换证、签证、国际驾照等跨境金融事务。
体育:马拉松、铁人三项、足球赛事等运动活动。
职业:职业规划、职场经验、数据工程师等。
美食:餐饮体验、特色美食、旅行中的美食分享等。
科技工具:人工智能(AI)应用、智能设备、软件工具等。
数据获取
下面介绍我是怎么分析的。
lmmsoft.github.io/archives 这是我的博文列表页,里面有全部的标题,可以借助这个网页的源码,拿到全部的标题。
我使用了 kimi, 提示词 写段js代码,在浏览器的控制台里运行,输出文章列表 json, 包含 日期,标题, 网页的 html格式如下: + 部分网页源码,因为上下文长度有限制,没能贴上全部的网页源码,不过结构都是一样的,足够AI找到规律了。
输出的结构大概如下,是个 json 格式,另外有些小问题,比如 link 的 url 没有解码,会有 %E6%88 这样可读性查的字符。
[
{
"date": "2025-02-03",
"title": "蛇年春节自驾d10:东莞-深圳-香港 deepseek教我如何收拾行李箱 福田取逗留签 回港新方式",
"link": "/snake_spring_d10_dongguan_to_hongkong/"
},
{
"date": "2025-02-02",
"title": "蛇年春节自驾d9:江门-顺德-东莞 中国侨都华侨华人博物馆 东莞迎宾馆",
"link": "/snake_spring_d9_jiangmen_to_dongguan/"
}
]
参考代码如下
// 获取页面中所有文章的日期和标题
const articles = document.querySelectorAll('article.post-content time');
const articleList = [];
articles.forEach((timeElement) => {
const date = timeElement.textContent.trim(); // 获取日期
const titleElement = timeElement.nextElementSibling; // 获取标题元素
const title = titleElement.textContent.trim(); // 获取标题
const link = titleElement.getAttribute('href'); // 获取链接
// 对链接进行解码,使其更具可读性
const readableLink = decodeURIComponent(link);
articleList.push({
date: date,
title: title,
link: readableLink
});
});
// 输出 JSON 格式的文章列表
console.log(JSON.stringify(articleList, null, 2));
这里遇到个误区,我按照日常数据处理的思路,要求输出 json 格式,然后再把 json 喂给大模型,发现有很大的干扰。其实 json 是适合代码处理的格式,而让大模型分析数据,直接喂纯文本更好。...
剩余内容已隐藏