购买数据的案例分享

编辑导语:数据,对于任何平台或者企业来说,都很重要。无论是想要做出一些营销决策还是调整新产品的发布策略,数据的收集和分析都是必经的一环。对于医药O2O电商平台来说,得到权威而又准确的数据,尤其是药品和病症之间的关系数据源,显得尤为重要。

购买数据的案例分享

本文复盘一次药学服务数据购买的案例,呈现当时的处理方式和遇到的问题。

该“买数据”案例,发生在做医药O2O电商平台,药品这一特殊的电商商品,其“健康属性”,可以作为附加值提供的载体。如,卖药的同时附加提供健康服务,以药学服务拉近“人货场”的温度,打造线上线下产业化新零售生态。

药学附加服务,无论是用药指导、寻医问药,还是患者画像之类的,前提都是要有药品-病症之间的关系数据源。

这个数据即要权威准确,又要通俗易懂,兼顾科学化和网络大众化。市场上单纯的医药数据,或单纯的药品商品数据,都不难获得。难获得的是,针对医药电商人群和故事场景下的医药健康的资料。

本案例涉及到的内容清单:案例 ║ 购买数据的案例分享

一、前期需求分析

1. 分析需求

基于项目规划,将本次药学服务的需求场景,归纳如下:

案例 ║ 购买数据的案例分享

这就要求,数据中起码涉及这些字段:用法用量、功能主治、适用人群、禁忌不良反应、服药周期、治疗的疾病、疾病的症状、疾病说明等。结合业务场景,可以勾勒出这样的简单的关系图:

案例 ║ 购买数据的案例分享

2. 确定核心要素

根据以上需求,我们可以得知 “药”、“病”、“症” 三者最为核心,关系如下:

案例 ║ 购买数据的案例分享

且三者为多对多关系,如下:

案例 ║ 购买数据的案例分享

3. 评估数据量级

常规药品的数量,达到6万种(SKU)。

药品基本都是单规格的(不同含量视为不同规格,不同含量不同的申报,业内视为不同的商品),因此大约要准备接近这个数字的药品资料,才能保证覆盖面。

总结:至此,从需求要素、核心内容、需求数据量范围,描绘了拟获取数据的轮廓,作为寻找数据源的验收标准或参考。

二、调研获取数据的途径

我们的目标数据,是客观标准的基础数据,不是运营产生的数据。因此权威性、客观性最重要,那么如何获取呢?

1. 假如自己维护?

请专人、找到药盒、翻阅药品说明书、录入、再翻阅医药词典类数据、对应整理疾病信息……平均一天一人最多搞定100条,算下来6万就要很久。

显然来不及且成本不菲,并且没有验证的数据也不敢用,这条途径pass。

2. 爬别人的数据

药品信息在药监局官网比较权威,但是上面没有疾病方面的,甚至连条形码都找不到(备注:条形码,国内就是69码,唯一标识商品,13位、12位或8位数字组成)。

案例 ║ 购买数据的案例分享

爬取其他网站,也曾尝试的,结果不是不准确、不齐全,就是不成功,这条路也走不通。

3. 购买数据

购买数据比起爬数据要正规些,咨询了京东阿里和腾讯丁香,人家都不卖。这些公司是要自己做数据服务的,也不差这点钱。

咨询了药房网、135网,没疾病方便的可靠数据,这时候业内人事推荐了一个叫“YA”的公司,在做药学服务,就决定深入商谈。

三、拿到样本数据

经过洽谈,对方提供的是一批EXCEL格式的样本数据。大概的表有14个表格,数据拿到之后,进行初步验收。

1. 比对E-R模型

他们的数据是mongdb存储的,首次抽离出来数据来卖,所以数据在表结构和表数量上有冗余。通过其表结构,绘制出E-R图,基本与需求符合。

2. 竞品横向对比

在检查样本数据的过程中,也在做替代方案的对比。

制定检验要点是:单表数据的错误率、联表查询的匹配率、市场数据的覆盖率、错误修复时效等。从网站或App寻找同类产品,但都有各种问题,最终还是舍弃了其他选项。

3. 远程全量检查数据

在未付款情况下,对方不提供全量数据。

由于样本有限,为了进一步了解数据,协商采取远程查数据库。对方在数据库中进行了单表验证和联表查询操作,我方远程观看,并记录检查结果。

远程的操作毕竟是不便,只交叉抽样验证了部分数据,当时估计出的准确率是93%——这也是决定继续洽谈的主要参数。

四、付首款并拿到全量数据

接下来的流程是谈价格,价格谈好就可以打包出售数据。

我方压价的论点主要是:疾病方面的数据不到一万条,买回后仍需补充的人工成本;非独家买断,可以复制销售,卖家边际成本很低,内容质量不高。

口头说的是由执业药师团队和药师专业、中国非处方药物协会药师进行审核。但是并拿不出证据,最终得到了折扣,拟定了全量数据验收的合同。

当时的合同内容比较简单,草稿截图如下:

案例 ║ 购买数据的案例分享

合同签署后,拿到了全量数据。

双方约定一周的时间进行数据验收,验收无误则支付尾款。因为数据的敏感性,由专人以邮件压缩包文档的方式接收。然后存入堡垒机中,其他参与验收人员通过堡垒机进行检验。

1. 研究数据的质量

检查数据的合理性:也就是数据在逻辑机构上的是否有缺陷。

案例 ║ 购买数据的案例分享

数据的关联度:采取的是手动在EXCEL上比对,并导入数据库后程序员SQL查询相结合的方式。基于对基础数据的了解,制定了检查方案,局部如下图:

案例 ║ 购买数据的案例分享

2. 检查数据的权威性

这一点需要专业药师或药学人员参与,我们采用的是抽样调查的办法,比对的标杆是药典的权威资料,考察的对象比如“阿苯达唑”的服用时间、用药禁忌等。

3. 数据的覆盖率

采用的办法是,指定20个常用药物(比如对乙酰氨基酚),看是会否能查到全套的资料,得到的结论是数据并不理想。

比如:用条形码匹配已有的商品,发现有1579个找不到,占比20.87%;再用这1579个的通用名查找,仍有147个仍找不到,即绝对找不到的比例1.9%。

4. 数据的冗余性

很多表都是从MongDB转化过来的,所以表之间的结构不合理。最终14个表,也就有7个表是有用的,其余的多是过度表(初步验收时候虽然也发现了)。

5. 双方交涉

其实大家看得出,全量数据的检测结果不理想。

主要发生在,表结构不合理;数据存在错误、一些名词在各表中的表述不一致等。但是这个时期,合同的约定并不利于买方,因此只能继续往前。

我们在一周内输出了问题清单,抠合同字眼,寻找有利的机会,然后责令对方将数据清洗后重新交接。

五、数据购买后的应用规划

在经历5次数据交付后,双方法务协商一致,进行了价格的调整,最终完成了交易。

如果把验收当做一次项目,那么虽然项目做的不太漂亮,但是数据还是有价值的,是可用用的。

数据拿到了,技术层面进行应用规划:第一步,元数据检查和清洗,将14个表,抽离成整洁的新表;第二步,指定底层服务逻辑,以作为数据中台,供应用端接口调用。

比如:

案例 ║ 购买数据的案例分享

第三步:对接具体业务场景,输出具体方案(此处略)。

六、总结

1. 本次数据购买主要涉及三方面

  1. 产品角度的需求锲合度;
  2. 医药专业角度的数据权威性;
  3. 法务层面的合同约定项:其中后两点都没做太好,尤其是法务方面,这导致了全量数据拿到之后的进退两难。

但是项目自身也存在局限性和难度:比如数据量大,很难发现细节问题;缺少标杆,自行推敲只能抽样调查的方式;数据的价格方面没有固定的标准,难以拿捏。

2. 数据购买带来的经验教训

  • 自身对数据的需求范围和目标明确;
  • 了解卖家,和卖家数据的影响力;
  • 应当在购买之前,应该了解还有谁买过或者用过,调查口碑;
  • 在于对方接洽之前,准备充分的行业和技术方面的验证标准和计划;
  • 制定基本的项目步骤,比如:前置研究、评估成本、购买谈判、后置约束;
  • 在拿到全量数据之前,应当充分采取远程调查的手段,挖掘对方数据的漏或者不足,以作为合同约定和议价的前提;
  • 在合同签署中,更多约定对“隔皮断货”的风险的鉴定标准和卖方的责任。这个份文档一定要提供给行业专家、法务,以便将来拿到真实数据之后,可进可退;
  • 合同中要约定验收过程问题的处理办法,验收成本谁来负责,验收不通过的最大次数等。
特别申明:本站的主旨在于收集互联网运营相关的干货知识,给运营小伙伴提供便利。网站所收集到的公开内容均来自于互联网或用户投稿,并不代表本站认同其观点,也不对网站内容的真实性负责,如有侵权,请联系站长删除。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

联系方式

QQ:596924832
微信:lonelywalker-GXL
备注:周一至周五全天在线,周末可能不在线,另外联系时,请告知来意。

分享本页
返回顶部