我的400篇博客都写了些什么

源起

快要 400 篇博文了(实际这是第397篇)，看到《我的博客都写了些什么》和《这18年土木坛子博主在关注什么领域和话题？》里总结了博客话题，感觉很好玩，尤其是把几百篇博文的标题生成纯文本文档喂给AI，让其提炼出最主要的关键词，非常高效，于是我也想分析一番。

总结

先看看ChatGPT对我的分析，我感觉还是挺准确的~

旅行：春节自驾游、东莞、深圳、香港等地的旅游经验与攻略。
生活：亲子活动、家庭生活、购物、文化体验、香港日常生活等。
教育：香港幼儿园面试经验、儿童教育、家庭教育规划等。
科技：Deepseek、AI工具、智能家居等技术应用。
健康：健身、减肥、体能训练、运动会等。
文化：博物馆参观、书展、音乐会等文化活动。
金融：香港换证、签证、国际驾照等跨境金融事务。
体育：马拉松、铁人三项、足球赛事等运动活动。
职业：职业规划、职场经验、数据工程师等。
美食：餐饮体验、特色美食、旅行中的美食分享等。
科技工具：人工智能（AI）应用、智能设备、软件工具等。

数据获取

下面介绍我是怎么分析的。

lmmsoft.github.io/archives 这是我的博文列表页，里面有全部的标题，可以借助这个网页的源码，拿到全部的标题。

我使用了 kimi，提示词 写段js代码，在浏览器的控制台里运行，输出文章列表 json, 包含日期，标题，网页的 html格式如下： + 部分网页源码，因为上下文长度有限制，没能贴上全部的网页源码，不过结构都是一样的，足够AI找到规律了。

输出的结构大概如下，是个 json 格式，另外有些小问题，比如 link 的 url 没有解码，会有 %E6%88 这样可读性查的字符。

[
  {
    "date": "2025-02-03",
    "title": "蛇年春节自驾d10：东莞-深圳-香港 deepseek教我如何收拾行李箱 福田取逗留签 回港新方式",
    "link": "/snake_spring_d10_dongguan_to_hongkong/"
  },
  {
    "date": "2025-02-02",
    "title": "蛇年春节自驾d9：江门-顺德-东莞 中国侨都华侨华人博物馆 东莞迎宾馆",
    "link": "/snake_spring_d9_jiangmen_to_dongguan/"
  }
]

参考代码如下

// 获取页面中所有文章的日期和标题
const articles = document.querySelectorAll('article.post-content time');
const articleList = [];

articles.forEach((timeElement) => {
  const date = timeElement.textContent.trim(); // 获取日期
  const titleElement = timeElement.nextElementSibling; // 获取标题元素
  const title = titleElement.textContent.trim(); // 获取标题
  const link = titleElement.getAttribute('href'); // 获取链接

  // 对链接进行解码，使其更具可读性
  const readableLink = decodeURIComponent(link);

  articleList.push({
    date: date,
    title: title,
    link: readableLink
  });
});

// 输出 JSON 格式的文章列表
console.log(JSON.stringify(articleList, null, 2));

这里遇到个误区，我按照日常数据处理的思路，要求输出 json 格式，然后再把 json 喂给大模型，发现有很大的干扰。其实 json 是适合代码处理的格式，而让大模型分析数据，直接喂纯文本更好。...

源起

总结

先看看ChatGPT对我的分析，我感觉还是挺准确的~

旅行：春节自驾游、东莞、深圳、香港等地的旅游经验与攻略。
生活：亲子活动、家庭生活、购物、文化体验、香港日常生活等。
教育：香港幼儿园面试经验、儿童教育、家庭教育规划等。
科技：Deepseek、AI工具、智能家居等技术应用。
健康：健身、减肥、体能训练、运动会等。
文化：博物馆参观、书展、音乐会等文化活动。
金融：香港换证、签证、国际驾照等跨境金融事务。
体育：马拉松、铁人三项、足球赛事等运动活动。
职业：职业规划、职场经验、数据工程师等。
美食：餐饮体验、特色美食、旅行中的美食分享等。
科技工具：人工智能（AI）应用、智能设备、软件工具等。

数据获取

下面介绍我是怎么分析的。

lmmsoft.github.io/archives 这是我的博文列表页，里面有全部的标题，可以借助这个网页的源码，拿到全部的标题。

输出的结构大概如下，是个 json 格式，另外有些小问题，比如 link 的 url 没有解码，会有 %E6%88 这样可读性查的字符。

[
  {
    "date": "2025-02-03",
    "title": "蛇年春节自驾d10：东莞-深圳-香港 deepseek教我如何收拾行李箱 福田取逗留签 回港新方式",
    "link": "/snake_spring_d10_dongguan_to_hongkong/"
  },
  {
    "date": "2025-02-02",
    "title": "蛇年春节自驾d9：江门-顺德-东莞 中国侨都华侨华人博物馆 东莞迎宾馆",
    "link": "/snake_spring_d9_jiangmen_to_dongguan/"
  }
]

参考代码如下

// 获取页面中所有文章的日期和标题
const articles = document.querySelectorAll('article.post-content time');
const articleList = [];

articles.forEach((timeElement) => {
  const date = timeElement.textContent.trim(); // 获取日期
  const titleElement = timeElement.nextElementSibling; // 获取标题元素
  const title = titleElement.textContent.trim(); // 获取标题
  const link = titleElement.getAttribute('href'); // 获取链接

  // 对链接进行解码，使其更具可读性
  const readableLink = decodeURIComponent(link);

  articleList.push({
    date: date,
    title: title,
    link: readableLink
  });
});

// 输出 JSON 格式的文章列表
console.log(JSON.stringify(articleList, null, 2));

源起

总结

先看看ChatGPT对我的分析，我感觉还是挺准确的~

旅行：春节自驾游、东莞、深圳、香港等地的旅游经验与攻略。
生活：亲子活动、家庭生活、购物、文化体验、香港日常生活等。
教育：香港幼儿园面试经验、儿童教育、家庭教育规划等。
科技：Deepseek、AI工具、智能家居等技术应用。
健康：健身、减肥、体能训练、运动会等。
文化：博物馆参观、书展、音乐会等文化活动。
金融：香港换证、签证、国际驾照等跨境金融事务。
体育：马拉松、铁人三项、足球赛事等运动活动。
职业：职业规划、职场经验、数据工程师等。
美食：餐饮体验、特色美食、旅行中的美食分享等。
科技工具：人工智能（AI）应用、智能设备、软件工具等。

数据获取

下面介绍我是怎么分析的。

lmmsoft.github.io/archives 这是我的博文列表页，里面有全部的标题，可以借助这个网页的源码，拿到全部的标题。

输出的结构大概如下，是个 json 格式，另外有些小问题，比如 link 的 url 没有解码，会有 %E6%88 这样可读性查的字符。

[
  {
    "date": "2025-02-03",
    "title": "蛇年春节自驾d10：东莞-深圳-香港 deepseek教我如何收拾行李箱 福田取逗留签 回港新方式",
    "link": "/snake_spring_d10_dongguan_to_hongkong/"
  },
  {
    "date": "2025-02-02",
    "title": "蛇年春节自驾d9：江门-顺德-东莞 中国侨都华侨华人博物馆 东莞迎宾馆",
    "link": "/snake_spring_d9_jiangmen_to_dongguan/"
  }
]

参考代码如下

// 获取页面中所有文章的日期和标题
const articles = document.querySelectorAll('article.post-content time');
const articleList = [];

articles.forEach((timeElement) => {
  const date = timeElement.textContent.trim(); // 获取日期
  const titleElement = timeElement.nextElementSibling; // 获取标题元素
  const title = titleElement.textContent.trim(); // 获取标题
  const link = titleElement.getAttribute('href'); // 获取链接

  // 对链接进行解码，使其更具可读性
  const readableLink = decodeURIComponent(link);

  articleList.push({
    date: date,
    title: title,
    link: readableLink
  });
});

// 输出 JSON 格式的文章列表
console.log(JSON.stringify(articleList, null, 2));