2017.06.15-2016.06.18回顾 loc/iloc/ix dataframe相关 oracle无自增去重 correl

上周最后阶段比较忙，主要是忙jd的数据测试的事情还有就是各种新产品的事情，下面回顾一下这段时间的工作。
1、上周四快下班的时候开了一个新产品的会，初步确定了风控策略，但是接近下班的时候又告诉我另外一个新产品需要紧急上线，同时jd的数据到了，草草看了下就下班了
2、pandas中loc/iloc/ix区别，loc按行名列名索引，iloc按下标索引（可以切片），ix可以混合前面两种索引方式，df不能通过df[:,3:5]类似于这种直接hash，必须用loc/iloc/ix，numpy可以直接hash
3、df.append是添加dataframe或者行，return是添加好的dataframe，其实行就是一个只包含一行的dataframe
4、两个series组成dataframe，a、b是两个Series，pd.DataFrame({a.name:a,b.name:b})
5、dataframe增加列也比较简单，df[:,'column_name'] = a，a可以是一个series/list
6、还遇到一个oracle无自增键去重的问题
row_number() over (partition by column1 order by column2)
这个语法的意思是按照column1进行分组，分组内部按照column的顺序进行编号，从1开始。
我发现oracle没有distinct on(column)的语法，在这种条件去重方面，最方便的还是pgsql，oracle有distinct，mysql有distinct。
在我的问题中有一点特殊，因为整行重复的，所以找不到一个column2来排序，但是依然可以正常编号，不影响去重
7、excel按身份证计算年龄，百度一搜很多例子，不用去记忆
8、excel也可以计算pearson相关系数，用到的是correl

9、周五一天主要都是搞京东数据的事情，一来上班的时候搞了一下r3c的审批逻辑，还未完成

10、一天之内写好了京东的逻辑，输出了结果，除了income给同事做，其他的框架全部搭好，用python写的规则引擎，并没什么新东西，注意的就是df.append需要赋值一道

11、mysql的power，对应到python是pow

12、pandas.read_csv()有个缺点就是，csv不能存储字符串，比如身份证，这个时候可以用read_excel函数

周末在家，运动没能坚持，只需要1个小时啊，执行力！还是没有请爽哥吃饭，该死，执行力啊（从*回来那个周一定要请了，第一优先级的事情）！

秒客网

2017.06.15-2016.06.18回顾 loc/iloc/ix dataframe相关 oracle无自增去重 correl

相关文章