python调用 bing api search接口 技术

时间:2024-04-11 15:37:17

0x01 微软bingapi现在也放开了,可以供大家使用了,以前的v1板的时候采用的是appid的方式,这个网上有很多介绍了,可惜现在这个接口取消了,取而代之是新的认证方式

 

0x02 首先可以参考http://blogs.msdn.com/b/translation/p/gettingstarted1.aspx这个文章讲的就比较细了,注意的点不多,

 

0x3 首先注册的时候bing的应用(先注册个账号什么的就不用多说了),下来关键就是注册bingsearch api 应用

https://datamarket.azure.com/browse/data?price=free&sort=name

这里面找


python调用 bing api search接口 技术
 

点击进去,我们大多数穷人就选这个了


python调用 bing api search接口 技术
 

一路next下去,到最后完成后,可以打开My Account,看到如下界面就说明成功了,其中核心是Primary Account Key


python调用 bing api search接口 技术
 
<!--[endif]-->

 

0x04 下来核心就是怎么用了,这里的文档讲的也比较细

https://skydrive.live.com/view.aspx?resid=9C9479871FBFA822!112&app=Word&authkey=!ANNnJQREB0kDC04

这里注意的点就比较多了,首先最重要的是api的认证方式,有两种,一种是OAuth2,一种是基本的401认证,其中OAuth2的方式比较正规和复杂点,但是管理性强些,而401认证就比较简单粗暴了,我用的是401认证的方式

 

0x05 401认证,顾名思义就是利用http 包头增加Authorization basic字段来实现认证。要注意的是这里认证的密码就是前面提到的Primary Account Key,用户名为空,

python中就是这个样子:

https:// api.datamarket.azure.com/Bing/Search/Web?'+ urllib.urlencode(payload)

AccountKey要注意的是,401认证的实质是在包头增加Authorization basic,而这里如果要直接代码实现的话,包头的内容应该增加如下:

Authorization basic base64.encode(":"+AccountKey)

一定要注意虽然用户名为空,但是冒号不能少,然后base64编码后,发送

payload的字段也很关键:


python调用 bing api search接口 技术
 


python调用 bing api search接口 技术
 

其中比较重要的是四个字段如下

$format  决定了返回的格式样式,是xml还是json,例如 $format=json

$top     决定了每一次返回的结果个数,类似于数据库分页中的limit,(0-50)。  

$skip    决定了返回的起始数字,类似与数据库分页的start

Query    就是实际查询的语句,特别要注意,这里的查询语句需要用两个单引  号括起来,不然会报错注意要url编码下

其中前三个字段的开头都要有$符号,千万不能忘。

 

0x06 返回的json格式目前是

    
python调用 bing api search接口 技术
 

 

0x07 附上一段python利用代码

 

# coding=utf-8 
"""
Created on 2013-1-24

@author: icefish
"""
import urllib
import urllib2
import base64
try:
    import json
except ImportError:
    import simplejson as json
#这里填上你申请到的bing的accout key 就可以了    
AccountKey='XXXXXXX.....'
top=50
skip=0
format='json'

def BingSearch(query):
    payload={}
    payload['$top']=top
    payload['$skip']=skip
    payload['$format']=format
    payload['Query']="'"+query+"'"
    url='https://api.datamarket.azure.com/Bing/Search/Web?' + urllib.urlencode(payload)     
    sAuth='Basic '+base64.b64encode(':'+AccountKey)
    
    headers = { }
    headers['Authorization']= sAuth
    try:
        req = urllib2.Request(url,headers=headers)        
        response = urllib2.urlopen(req)
        the_page=response.read() 
        #print the_page
        data=json.loads(the_page) 
        
        return data
    except Exception as e:
        print e
        #print e.info()
    
if __name__ == '__main__':
    data=BingSearch("abc")
    print data