Python3统计json格式文件中各个key对应值出现的频次

时间:2024-03-05 11:40:26

需求:

现在有一个文件query_demo.json,里面的数据格式示例如下,query字段代表的是用户的提问,现在想统计所有不同query出现的频次。

[
    {
        "query": "会议开始提醒弹窗如何开启",
        "intention": "verticalWenda",
        "send_time": "2024-02-01 17:42:58"
    },
    {
        "query": "基于「内搜插件」回答:怎样理解如流?",
        "intention": "verticalWenda",
        "send_time": "2024-02-01 17:39:17"
    },
    {
        "query": "讲一下MA Marketing Automation的内容和经常应用场景",
        "intention": "verticalWenda",
        "send_time": "2024-02-01 17:30:01"
    },
    {
        "query": "基于「内搜插件」回答:怎样理解如流?",
        "intention": "verticalWenda",
        "send_time": "2024-02-01 17:21:24"
    },
    {
        "query": "怎样理解如流?",
        "intention": "verticalWenda",
        "send_time": "2024-02-01 17:20:33"
    },
    {
        "query": "会议开始提醒弹窗如何开启",
        "intention": "verticalWenda",
        "send_time": "2024-02-01 17:42:58"
    },
    {
        "query": "会议开始提醒弹窗如何开启",
        "intention": "verticalWenda",
        "send_time": "2024-02-01 17:42:58"
    },
    {
        "query": "基于「内搜插件」回答:怎样理解如流?",
        "intention": "verticalWenda",
        "send_time": "2024-02-01 17:39:17"
    }
]

代码实现:

query_frequency_count.py

import json
from collections import Counter


# 打开 JSON 文件,注意替换成你自己的文件名路径
with open('query_data.json', 'r') as f:
    # 读取 JSON 数据
    data = json.load(f)

result = []
# 输出 JSON 数据
for i in data:
    result.append(i["query"])


# 使用Counter记录频次
frequency = Counter(result)
# 对结果进行排序
sorted_frequency = sorted(frequency.items(), key=lambda x: x[1], reverse=True)

# 打开一个文本文件以写入模式
with open('example.txt', 'w') as f:
    for element, count in sorted_frequency:
        print(element, count)
        f.write(f"{element}\n")

输出结果:

会议开始提醒弹窗如何开启 3
基于「内搜插件」回答:怎样理解如流? 3
讲一下MA Marketing Automation的内容和经常应用场景 1
怎样理解如流? 1

思路扩展:

这种常规的脚本,基本可以通过大模型一句话实现,对于prompt描述的要求也不是很高,可以参考示例:文心一言