光环大数据分享程序员如何优雅的处理杂乱的传感器数据

编辑：光环大数据来源: 互联网时间: 2017-12-14 18:01 阅读: 次大中小

光环大数据（大数据培训的专业机构），天气数据是现实世界中一类很好的杂乱数据集案例。其中包含了不同的内容，不规则的数据，以及各种各样的时区。前面说的这些点对于数据科学家来讲都是很致命的痛点。我会通过下面的例子来向你介绍如何处理这种混合的、 ...

Python Java Hadoop 培训 C++ Pandas

关于 Python 的一些资源What is Python?Top Python IDEsTop Python GUI frameworksLatest Python contentMore developer resources
天气数据是现实世界中一类很好的杂乱数据集案例。其中包含了不同的内容，不规则的数据，以及各种各样的时区。前面说的这些点对于数据科学家来讲都是很致命的痛点。我会通过下面的例子来向你介绍如何处理这种混合的、不规则的数据内容。至于如何处理古怪的时区数据，可以参考 Mario Corchero’s 发表的这篇文章 How to work with dates and time with Python。让我们先从如何将杂乱无章的数据变为可用的数据集开始。具体的代码在 GitHub 上面。
读取一个 CSV 文件你可以通过下面的方式来读取一个 Pandas 文件：pandas.read_csv()：向打开表格一样打开 CSV 文件，并存放到 DataFrame 当中。DataFrame.head()：展示 DataFrame 的前五条数据。DataFrame 就是 Pandas 中的一个表格；DataFrame 有一列存放了行号来作为索引。CSV 文件很适合用 DataFrame 来处理，因为 CSV 文件本身就是行和列格式的数据。

可以看到，我们的数据是通过/t 制表符来隔开地。pandas.read_csv() 方法针对不同的场景，提供了不同的参数。现在你能观察到，你的数据中包含一列 Data 类型数据，以及一列 Time 类型数据。你可以尝试通过添加一些关键字来为你的程序增加一些智能：sep：指定列的分隔符parse_dates：将列中数据按照 date 类型来进行解析dayfirst：采用 DD.MM.YYYY 的格式，而不是默认的月份开头的格式infer_datatime_format：让 Pandas 来分析数据的时间格式并解析na_values：将某些值当做空值处理
通过这些关键字参数，可以让 Pandas 代替你完成一些格式化的处理工作。

Pandas 很好的处理 Date 和 Time 这两列数据，并且转为了一个标准化的格式。你会发现其中有个 NaN 值，但是不要跟 “not a number” 这个含义混淆。NaN 只是 Pandas 用于展示空数据的方式。
数据排序让我们看下 Pandas 是如何将数据排序的。DataFrame.sort_values()：将数据排序DataFrame.drop_duplicates()：去除重复项DataFrame.set_index()：指定某一列作为索引因为时间数据看起来是是有序的，让我们排个序：

为什么有两个午夜时间？因为我们的数据集（原始数据）当中，一个午夜时间既在前一天的结束时记录，又被后一天在开始记录。你可以删除一条重复记录。合理的排序方式是首先去掉重复项，然后对数据进行排序，最后设置索引。

现在你已经有了一个时间作为索引的 DataFrame 数据集，而接下来我们将针对这个数据集继续处理。首先，让我们对风向数据做一些转义。
数据转义为了给天气模型准备一些可用的风向数据，你需要将风向数据转为数字格式。转化的规则是：北风 (↓) 是 0 度，然后顺时针 ⟳ 增加度数。东风 (←) 是 90 度，以此类推。你可以使用 Pandas 来处理这个转义过程：Series.apply()：通过一个函数来处理每项数据的转义为了获取每个风向的准确值，我定义了一个只包含 16 个关键字的字典结构的数据集。这个字典应该很小并很容易理解。

在 Pandas 中，你可以通过 Series，一种按照索引访问 DataFrame 的方式来处理数据，就像 Python 中字典类一样。在转义之后，Series 中的值被替换为新的值。

每一个合法的风向值现在都被转换为一个数字。具体数字是一个字符串还是其他别的类型的数字格式并不重要，你都可以通过 Series.apply() 来进行转义。
频繁的设置索引当你深入分析数据的时候，你会发现数据集中存在下面的缺陷：

00:33:00? 01:11:00? 这些都是奇怪的时间戳。下面有个函数来保证一致性：DataFrame.asfreq()：强制索引上数据的步频，过滤掉无效数据，并用正确的数据填充。

Pandas 删除那些不满足间隔的数据并填充一个正确的值。当无法填充的时候，则插入一个空行。现在你有一个间隔保持一致的索引了。让我们用一种流行的绘图库 matplotlib 来看一下数据的曲线：

仔细看能够发现，在 6 月 6 号、7 号等时间点上存在空隙。你需要填充一些有含义的数据来弥补这个空隙。
为空行插入新数据你可以按照线性函数的规律来填充空缺值，或者在开始点和结束点之间划线，并按照这种规律来修正每个时间戳数据。Series.interpolate()：线性方式填充空缺数据值。下面展示如何通过 inplace 关键字来告知 Pandas 对数据进行替换和修复。

　大数据+时代，大数据培训机构，就选光环大数据！

　　原创文章，转载请注明出处：光环大数据官网。

大数据培训、人工智能培训、Python培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训，就选光环大数据！光环大数据，聘请专业的大数据领域知名讲师，确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术，将前沿技能融入教学中，确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式，指导学生更快的掌握技能知识，成就上万个高薪就业学子。更多问题咨询，欢迎点击------>>>>在线客服！

当前位置

光环大数据分享程序员如何优雅的处理杂乱的传感器数据

你可能也喜欢这些

在线客服咨询

热点阅读

网友最爱

在线客服咨询