明明如月成长笔记

明明如月的博客

马上订阅 明明如月成长笔记 RSS 更新: https://lmmsoft.github.io/feed.atom

我的400篇博客都写了些什么

2025年3月13日 12:00

源起

快要 400 篇博文了(实际这是第397篇),看到 《我的博客都写了些什么》《这18年土木坛子博主在关注什么领域和话题?》 里总结了博客话题,感觉很好玩,尤其是把几百篇博文的标题生成纯文本文档喂给AI,让其提炼出最主要的关键词,非常高效,于是我也想分析一番。

总结

先看看ChatGPT对我的分析,我感觉还是挺准确的~

旅行:春节自驾游、东莞、深圳、香港等地的旅游经验与攻略。
生活:亲子活动、家庭生活、购物、文化体验、香港日常生活等。
教育:香港幼儿园面试经验、儿童教育、家庭教育规划等。
科技:Deepseek、AI工具、智能家居等技术应用。
健康:健身、减肥、体能训练、运动会等。
文化:博物馆参观、书展、音乐会等文化活动。
金融:香港换证、签证、国际驾照等跨境金融事务。
体育:马拉松、铁人三项、足球赛事等运动活动。
职业:职业规划、职场经验、数据工程师等。
美食:餐饮体验、特色美食、旅行中的美食分享等。
科技工具:人工智能(AI)应用、智能设备、软件工具等。

数据获取

下面介绍我是怎么分析的。

lmmsoft.github.io/archives 这是我的博文列表页,里面有全部的标题,可以借助这个网页的源码,拿到全部的标题。

我使用了 kimi, 提示词 写段js代码,在浏览器的控制台里运行,输出文章列表 json, 包含 日期,标题, 网页的 html格式如下: + 部分网页源码,因为上下文长度有限制,没能贴上全部的网页源码,不过结构都是一样的,足够AI找到规律了。

输出的结构大概如下,是个 json 格式,另外有些小问题,比如 link 的 url 没有解码,会有 %E6%88 这样可读性查的字符。

[
  {
    "date": "2025-02-03",
    "title": "蛇年春节自驾d10:东莞-深圳-香港 deepseek教我如何收拾行李箱 福田取逗留签 回港新方式",
    "link": "/snake_spring_d10_dongguan_to_hongkong/"
  },
  {
    "date": "2025-02-02",
    "title": "蛇年春节自驾d9:江门-顺德-东莞 中国侨都华侨华人博物馆 东莞迎宾馆",
    "link": "/snake_spring_d9_jiangmen_to_dongguan/"
  }
]

参考代码如下

// 获取页面中所有文章的日期和标题
const articles = document.querySelectorAll('article.post-content time');
const articleList = [];

articles.forEach((timeElement) => {
  const date = timeElement.textContent.trim(); // 获取日期
  const titleElement = timeElement.nextElementSibling; // 获取标题元素
  const title = titleElement.textContent.trim(); // 获取标题
  const link = titleElement.getAttribute('href'); // 获取链接

  // 对链接进行解码,使其更具可读性
  const readableLink = decodeURIComponent(link);

  articleList.push({
    date: date,
    title: title,
    link: readableLink
  });
});

// 输出 JSON 格式的文章列表
console.log(JSON.stringify(articleList, null, 2));

这里遇到个误区,我按照日常数据处理的思路,要求输出 json 格式,然后再把 json 喂给大模型,发现有很大的干扰。其实 json 是适合代码处理的格式,而让大模型分析数据,直接喂纯文本更好。...

剩余内容已隐藏

查看完整文章以阅读更多