2017.06.15-2016.06.18回顾 loc/iloc/ix dataframe相关 oracle无自增去重 correl

时间:2022-11-07 20:22:56
上周最后阶段比较忙,主要是忙jd的数据测试的事情还有就是各种新产品的事情,下面回顾一下这段时间的工作。
1、上周四快下班的时候开了一个新产品的会,初步确定了风控策略,但是接近下班的时候又告诉我另外一个新产品需要紧急上线,同时jd的数据到了,草草看了下就下班了
2、pandas中loc/iloc/ix区别,loc按行名列名索引,iloc按下标索引(可以切片),ix可以混合前面两种索引方式,df不能通过df[:,3:5]类似于这种直接hash,必须用loc/iloc/ix,numpy可以直接hash
3、df.append是添加dataframe或者行,return是添加好的dataframe,其实行就是一个只包含一行的dataframe
4、两个series组成dataframe,a、b是两个Series,pd.DataFrame({a.name:a,b.name:b})
5、dataframe增加列也比较简单,df[:,'column_name'] = a,a可以是一个series/list
6、还遇到一个oracle无自增键去重的问题
row_number() over (partition by column1 order by column2)
这个语法的意思是按照column1进行分组,分组内部按照column的顺序进行编号,从1开始。
我发现oracle没有distinct on(column)的语法,在这种条件去重方面,最方便的还是pgsql,oracle有distinct,mysql有distinct。
在我的问题中有一点特殊,因为整行重复的,所以找不到一个column2来排序,但是依然可以正常编号,不影响去重
7、excel按身份证计算年龄,百度一搜很多例子,不用去记忆
8、excel也可以计算pearson相关系数,用到的是correl

9、周五一天主要都是搞京东数据的事情,一来上班的时候搞了一下r3c的审批逻辑,还未完成

10、一天之内写好了京东的逻辑,输出了结果,除了income给同事做,其他的框架全部搭好,用python写的规则引擎,并没什么新东西,注意的就是df.append需要赋值一道

11、mysql的power,对应到python是pow

12、pandas.read_csv()有个缺点就是,csv不能存储字符串,比如身份证,这个时候可以用read_excel函数

周末在家,运动没能坚持,只需要1个小时啊,执行力!还是没有请爽哥吃饭,该死,执行力啊(从*回来那个周一定要请了,第一优先级的事情)!