简介:用户访问数据中往往存在大量无用或与当前信息挖掘无关的数据,我们通过数据清洗从挖掘对象中去除不相关的数据,并实现了用户识别、会话识别、格式化等步骤,对WEB信息进行预处理,为进一步的操作提供了较好的数据格式,提高了挖掘效率。同时,因特网上的信息往往具有非结构化或半结构化特性,难以得到传统数据挖掘技术的支持,我们通过事务识别技术解决了这一问题,将访问序列组织成逻辑单元以表示事务或用户会话,将所有事务组成一个事务数据库,识别出事务后就可以利用对传统数据挖掘的方法对WEB数据进行挖掘:事务识别技术有多种实现形式,不同形式有不同的应用场合,本文根据特定挖掘任务,实现了以时间维来分割事务的算法,并给出了一些实验数据。
简介:摘要:2020年新华社正式发布《中共中央关于制定国民经济和社会发展第十四个五年规划和二〇三五年远景目标的建议》,该建议指出,“坚持房子是用来住的、不是用来炒的定位,租购并举、因城施策,促进房地产市场平稳健康发展”。近年来,由于一线城市及新一线城市大规模的人口流动和不断上涨的房价,购房对于在大城市工作的人来说,成为一个遥不可及的目标。房地产市场逐渐从增量房市场过渡至存量房市场,因而住房租赁成为房地产市场关注的一个重点。2017年,北京、上海、广州外来人口中超过五成选择租房居住,深圳则将近七成租房居住;与一线城市相比,新一线城市竞争压力相对较小,加以人才引进政策的实施,以成都、杭州、重庆、西安为代表的新一线城市在近几年成为大学毕业生的工作首选之地,这也在无形中导致房价不断上涨。越来越多的人选择租房来住,“70后”为了孩子的教育问题选择租房,“80后”由于购房资金不足选择租房,“90后”为了工作需要选择租房。根据房天下研究院的调查数据,预计2023年我国住房租赁人口规模将达到2.48亿人。由此可见,一线城数据挖掘视角下住房租赁市场现状及对策研究市及新一线城市住房租赁市场的规模正在进一步扩大。