百度搜索的【天气】需求,识别策略分析

1. 背景

百度搜索,虽然已经日渐强大,搜索策略也日渐完善,但是在实际使用过程中,还是会有一些不足的地方需要改进。现在以【天气】相关需求的搜索为例进行讨论。

此处所指的天气,是指某一个地区距离地表较近的大气层在短时间内的具体状态。

2. 目的

分析百度天气查询相关需求的识别策略,找到问题,并提出应对的优化策略。

3. 现有数据分析

后台随机抽取了200个query来进行分析。表单中的query标记为1的是被机器标记为[天气]的。

百度搜索的【天气】需求,识别策略分析

数据表格中的搜索词(query)有重复项,去除重复项,剩余190项。本次探讨的为天气相关的需求,现对剩下的query进行人工标记:

当用户有以下的需求时,会输入相关的query进行“天气”的相关查询:

  • 1)查询的天气预报
  • 2)搜索天气、气候的种类等知识性内容
  • 3)搜索与“天气”有关一些话题
  • 4)与天气有关的衣着、行动指引信息

由此,我们对剩余的190个query进行了人工识别:

百度搜索的【天气】需求,识别策略分析

对于天气查询间接的需求判断:

  • 行政区域(省、市、镇、村等)、景点(公园)、交通枢纽(车站、机场)的单独地点名,视为可能的天气 预报查询需求。具体到街道、小区的视为非天气预报查询需求。
  • 当query包含旅行、自驾游、旅游、出行等明显旅游倾向的需求时,可视为间接天气预报查询需求。

利用透视表对数据进行分类统计:

百度搜索的【天气】需求,识别策略分析

识别结果统计:

  • 机器识别为天气需求的query数:33
  • 机器错误识别为天气需求的query数:8
  • 机器正确识别为天气需求的query数:25
  • 机器未识别,但是天气需求的query数:45

召回率=机器识别为天气需求的数量/数据中应该被识别为天气需求的数量=33/79=41.77%

准确率=机器识别的正确天气需求数量/机器识别为天气需求的数量=25/33=75.76%

当前策略分析:从机器识别情况,可以看出,当前的搜索识别策略仅仅只是进行了切词,只要提取到有“天气”这个词语的就识别为天气相关需求。目前机器识别的召回率较低,需要重点考虑。

去除机器识别为非天气需求,人工判断也无关天气需求的103个query,还剩下87个query,下面将依据这87个query进行探讨。

3.3 query分类分析

我们将剩余的87个query按照需求表达方式进行分类,分为以下5种情况进行分类分析:

  • 需求明确,结构简单清晰
  • 需求明确,口语化
  • 需求明确,表达方式很复杂
  • 需求明确,对答案有特殊要求
  • 需求不明确

1)需求明确,结构简单清晰:

百度搜索的【天气】需求,识别策略分析

主要需求有:

  • 天气预报查询(例:赣州天气);
  • 与天气有关的歌曲、歌名(例:歌曲春天天气真好);
  • 与天气需求无关,属于知识、话题内容(例:天气种类)。

这类需求机器识别召回率表现很好,准确率有提升空间。需要识别出含有“天气”2字的歌曲、歌词内容,归类到非天气类需求;能识别出出含有“天气”2字对于知识、话题的需求,归类到非天气需求。

2)需求明确,口语化:

百度搜索的【天气】需求,识别策略分析

主要需求有:天气预报查询(例:广州现在冷不冷、北京明天下雨吗、九寨沟现在温度如何)

目前的策略无法识别,需要改进,可建立口语词库等提高机器召回率。

3)需求明确,表达方式很复杂:

百度搜索的【天气】需求,识别策略分析

主要需求有:与“天气”2字有关的知识、话题内容,为非【天气】查询类需求。需要归类到知识、话题内容类,为非天气需求。

4)需求明确,对答案有特殊要求:

百度搜索的【天气】需求,识别策略分析

主要需求有:

  • 特定天气预报查询(例:东莞今日天气,温州4月10日-4月12日天气,北京天气预报一周,辽宁第一之间天气预报);
  • 与天气预报有关的衣着(例:去华山需要准备什么衣服);
  • 与天气预报有关的行动(例:鼓浪屿现在能下海吗)。

这类需求主要为在天气预报的基础上,加上了限定条件,或需要的内容是与天气预报相关的衣着和行动指引,目前只能召回有限定条件的天气预报需求。对于需求为与天气预报有关的衣着和行动的时候,机器无法识别。

5)需求不明确:

百度搜索的【天气】需求,识别策略分析

主要需求有:

  • 可能是歌曲、歌名、话题、文章(例:今天天气好晴朗 处处好风光、男朋友今天气死我了),仅仅只包含有“天气”这个2个字就被机器识别为天气需求,属于切词没有考虑前后的语义问题。
  • 与天气有关的内容,但是对于天气查询的地点区域不明确(例:天气、天气预报查询),此类需求,由于有关联词“天气”,这类需求机器识别较为准确,但是不能准确定位查询地点区域。
  • 天气预报的间接需求,行政地区(例:潢川县、西安),由于没有包含“天气”2字,机器不能识别。可建立对应的词库关联,当搜索此类query时,可在主推结果(如前3个)之后展示对应的天气预报信息供用户选择。
  • 天气预报的间接需求,公园、景点(例:三门峡黄河公园、洞庭湖),由于没有包含“天气”2字,机器不能识别。可建立对应的词库关联,当搜索此类query时,可在主推结果(如前3个)之后展示对应的天气预报信息供用户选择。
  • 天气预报的间接需求,交通枢纽(例:厦门火车站、常州客运中心),由于没有包含“天气”2字,机器不能识别。可建立对应的词库关联,当搜索此类query时,可在主推结果(如前3个)之后展示对应的天气预报信息供用户选择。
  • 天气预报的间接需求,有关旅游(例:湖北天门旅行社、大连自驾游,),由于没有包含“天气”2字,机器不能识别。可建立对应的词库关联,当搜索此类query时,可在主推结果(如前3个)之后展示对应的天气预报信息供用户选择。

3.4 主要问题整理

1)错误识别含有“天气”2字的歌曲、歌词、知识、话题内容。应归类到非天气类需求。

百度搜索的【天气】需求,识别策略分析

2)口语化天气需求,目前的策略无法识别,需要改进,可建立口语词库等提高机器召回率。

百度搜索的【天气】需求,识别策略分析

3)天气预报有关的衣着和行动的天气查询需求无法识别。对于需求为与天气预报有关的衣着和行动的时候,机器无法识别。

百度搜索的【天气】需求,识别策略分析

4)天气预报的间接需求,行政地区(公园、景点、交通枢纽等)可能有天气查询的需求,无法识别。

百度搜索的【天气】需求,识别策略分析

5)天气预报的间接需求,有关旅游的天气查询需求,无法识别。

百度搜索的【天气】需求,识别策略分析

3.5 问题解决优先级

根据上面分析,可初步得出各类需求存在问题的影响面和预计解决程度,进一步估算出解决优先级:

百度搜索的【天气】需求,识别策略分析

考虑到开发难度和2周的开发周期,本期选择先完成以下问题类别:

  • 天气预报的间接需求,行政地区(公园、景点、交通枢纽等)
  • 天气预报的间接需求,有关旅游

4. 优化策略需求文档

4.1 需求背景

百度搜索有关天气的需求策略,仅仅只是采用了切词识别,只要用户query中提取到有“天气”这个字连 在一起时,就识别为天气相关需求。造成了错识别、漏识别等问题。本次迭代将对天气预报的间接需求,行政地区(公园、景点、交通枢纽等)和有关旅游的query识别进行优化。

4.2 需求目标

优化天气需求的策略,当用户输入有关天气预报的间接需求,行政地区(公园、景点、交通枢纽等)和有关旅游的query时,能识别为天气查询有关需求,并在搜索展示结果的第4个位展示相关的天气查询结果。预计召回率为90%,准确率为90%。

4.3 需求概述

1)优化“行政地区、公园、景点、交通枢纽等query”识别

需将以下类别的query,识别为天气预报查询需求:

  • 行政地区(例:潢川县、西安)
  • 公园、景点(例:三门峡黄河公园、洞庭湖)
  • 交通枢纽(例:厦门火车站、常州客运中心)

2)优化“有关旅游的query”识别

需将有关旅游、旅行、出游(例:湖北天门旅行社、大连自驾游,)类别的query,识别为天气预报查询需求.

4.4 需求详述

4.4.1 优化“行政地区、公园、景点、交通枢纽等query”识别

问题:天气预报的间接需求,行政地区(公园、景点、交通枢纽等)可能有天气查询的需求,无法识别,如:

  • 行政地区(例:潢川县、西安)
  • 公园、景点(例:三门峡黄河公园、洞庭湖)
  • 交通枢纽(例:厦门火车站、常州客运中心)

解决方案:

完善可被识别为有间接天气预报查询需求的名词词库。

  • 行政区域(省、市、镇、村等)名称库(到区即可,不具体到街道、小区);
  • 景点(公园)名称库;
  • 交通枢纽(车站、机场、港口等)名称库。

当用户单独输入相关名称时,视为间接的天气查询需求,可在搜索结果展示当前名词解释之后,列出对应地区的天气情况。放置在,搜索结果的第1页的第5位。

百度搜索的【天气】需求,识别策略分析

4.4.2 优化“有关旅游的query”识别

问题:天气预报的间接需求,有关旅游的天气查询需求,无法识别:

  • 有关旅游、旅行、出游(例:湖北天门旅行社、大连自驾游,)

解决方案:

完善可被识别为有间接天气预报查询需求的名词词库。

  • 有关旅游、旅行、出游的词汇库,有出行需求,可视为间接天气需求。

当用户单独输入相关名称时,视为间接的天气查询需求,可在搜索结果展示当前名词解释之后,列出对应地区的天气情况。放置在,搜索结果的第1页的第5位。