欧美色欧美亚洲高清在线视频-欧美色碰碰碰免费观看长视频-欧美色频-欧美色视频超清在线观看-国产精品免费看久久久-国产精品免费看久久久久

首頁 > 綜合 > 正文

環球快資訊:歷屆奧運會獎牌排行榜排名 數據整理分享

2023-02-28 15:14:10來源:互聯網  

摘 要在制作動態排序動畫之前,我們看一下數據的整理情況:

a、對第1)種大部分數據的情況,先爬取下來,輸出到excel(1);

b、對第2)種小部分數據的情況,也先爬取下來,輸出到另一個excel(2);


【資料圖】

c、對第3)種個別的,還有第31-32屆的數據,算了,別折騰了,手動復制粘貼到excel(3)吧。

d、最后把這3個excel合并到一個excel,進行數據處理吧。

二、數據處理經過1896-2021歷屆奧運會獎牌榜動態排序系列的數據處理(第二篇),我們得到了a數據:

看到這張數據表,還有以下幾點需要調整:

1、合并3個excel數據;

2、標題、年份列順序調整到名次前;

3、'國家'列名修改為'國家/地區';

4、計算獎牌的合計數量;

5、根據年份,計算各國的獎牌合計數排名。

1)合并DataFrame:concat(),合并函數還有merge、join函數,有興趣可以進入以下鏈接進行學習()

df1 = pd.read_excel("./data/Olympic10.xlsx")df2 = pd.read_excel("./data/Olympic11.xlsx")df3 = pd.read_excel("./data/Olympic12.xlsx")df = pd.concat([df1,df2,df3],axis=0,ignore_index=True,sort=True)2)調賬列順序

columns = ['標題','年份','國家','金牌','銀牌','銅牌']df = pd.DataFrame(df, columns=columns)3)列名修改

df.rename(columns={'國家':'國家/地區'},inplace=True)4)計算獎牌合計

df['合計'] = ''df['合計'] = df['金牌'] + df['銀牌'] + df['銅牌']5)按年份,計算各國的獎牌合計數排名

df['排名'] = df.groupby('年份',axis=0)['合計'].rank(method='first',ascending=False)另外,再對數據進行一些微調

df=df.drop_duplicates(subset=['年份', '國家/地區'], keep='first')df.sort_values(["年份","排名"],inplace=True,ascending=True)#將國家/地區列字符串中的空格都去除df['國家/地區'].replace('\s+','',regex=True,inplace=True) 最終獲得我們的完整數據

df.to_excel("./data/Olympic_final.xlsx")完整代碼如下:

import pandas as pddf1 = pd.read_excel("./data/Olympic10.xlsx")df2 = pd.read_excel("./data/Olympic11.xlsx")df3 = pd.read_excel("./data/Olympic12.xlsx")df = pd.concat([df1,df2,df3],axis=0,ignore_index=True,sort=True)columns = ['標題','年份','國家','金牌','銀牌','銅牌']df = pd.DataFrame(df, columns=columns)df.rename(columns={'國家':'國家/地區'},inplace=True)df['合計'] = ''df['合計'] = df['金牌'] + df['銀牌'] + df['銅牌']df.loc[df['年份']==1894,'年份'] = 1900df=df.drop_duplicates(subset=['年份', '國家/地區'], keep='first')df['排名'] = df.groupby('年份',axis=0)['合計'].rank(method='first',ascending=False)df.sort_values(["年份","排名"],inplace=True,ascending=True)#將國家/地區列字符串中的空格都去除df['國家/地區'].replace('\s+','',regex=True,inplace=True) df.to_excel("./data/Olympic_final.xlsx")輸出結果:

三、動態排序經過一系列的數據處理,終于可以驗證下勞動成果了。完整代碼如下:

import pandas as pdimport randomimport matplotlib.pyplot as pltimport matplotlib.ticker as tickerimport matplotlib.animation as animationfrom IPython.display import HTMLimport matplotlibplt.rcParams['font.sans-serif']=['SimHei'] #顯示中文標簽plt.rcParams['axes.unicode_minus']=False #這兩行需要手動設置#防止動漫內存太大,報錯matplotlib.rcParams['animation.embed_limit'] = 2**128def randomcolor(): colorlist = ['1','2','3','4','5','6','7','8','9','A','B','C','D','E','F'] color ='' for i in range(6): color += random.choice(colorlist) return '#'+ colordf = pd.read_excel(./data/Olympic_final.xlsx")#對地區列表進行去重,分類;area_list1 = set(df['國家/地區'])# color_list用于存放隨機生成顏色代碼個數# 因為后面區域個數 要與顏色個數保持一致,這里用了len函數;color_list =[]for i in range(len(area_list1)): str_1 = randomcolor() color_list.append(str_1) str_1 = randomcolor() #area_list轉化為列表area_list_1 = [i for i in area_list1]#colors表示 所在城市:顏色 一一對應字典形式;colors =dict(zip(area_list_1,color_list))# 用plt加理圖表,figsize表示圖標長寬,ax表示標簽fig, ax = plt.subplots(figsize=(15, 8))#dras_barchart生成current_year這一年各城市人口基本情況;def draw_barchart(current_year): #dff對year==current_year的行,以”合計“降序排序,取前十名; dff = df[df['年份'].eq(current_year)].sort_values(by='合計',ascending = True).tail(10) # 所有坐標、標簽清除 ax.clear() #顯示顏色、城市名字 ax.barh(dff['國家/地區'],dff['合計'],color = [colors[x] for x in dff['國家/地區']]) dx = dff['合計'].max()/200 #ax.text(x,y,name,font,va,ha) # x,y表示位置; # name表示顯示文本; # va,ba分別表示水平位置,垂直放置位置; for i ,(value,name) in enumerate(zip(dff['合計'], dff['國家/地區'])): ax.text(value-dx,i,name,size=18,weight=600,ha ='right',va = 'bottom',color='#777777') ax.text(value+dx,i ,f'{value:,.0f}',size = 14,ha = 'left',va ='center') #ax.transAxes表示軸坐標系,(1,0.4)表示放置位置 ax.text(1,0.4,current_year,transform = ax.transAxes,color ='#777777',size = 46,ha ='right',weight=800) ax.text(0,1.06,'Olympic Medals',transform = ax.transAxes,size=12,color='#777777') #set_major_formatter表示刻度尺格式; ax.xaxis.set_major_formatter(ticker.StrMethodFormatter('{x:,.0f}')) ax.xaxis.set_ticks_position('top') ax.tick_params(axis='x',colors='#777777',labelsize=12) ax.set_yticks([]) #margins表示自動縮放余額; ax.margins(0,0.01) # 設置后面的網格 ax.grid(which='major',axis='x',linestyle='-') #刻度線和網格線是在圖標上方還是下方,True為下方 ax.set_axisbelow(True) ax.text(0,1.15,'歷屆奧運會獎牌排行榜', transform=ax.transAxes,size=24,weight=600,ha='left',va='top') ax.text(1,0,'Officetouch制作',transform = ax.transAxes, size=16,color ='#777777',ha = 'right', bbox = dict(facecolor='white',alpha = 0.8,edgecolor='white')) #取消圖表周圍的方框顯示 plt.box(False)#draw_barchart(2008)#將原來的靜態圖拼接成動畫fig, ax = plt.subplots(figsize=(15, 8))animator = animation.FuncAnimation(fig, draw_barchart, frames=df['年份'].drop_duplicates(),interval = 1000)animator.save("./data/Olympic.gif", writer='pillow')輸出結果:

結 語學習需要耐心和時間的投入,初學的時候可能需要投入比較多的時間和精力,但只要有這樣一個過程,你就會脫胎換骨,一點一滴的積累成就自己。

1、數據采集-爬蟲;

1896-2021歷屆奧運會獎牌動態排序動畫(Python數據分析實戰1)

2、數據處理-數據清洗;

1896-2021歷屆奧運會獎牌榜(Python數據處理)

3、數據動態排序。(本篇文章)

因為奧運數據連續性較差,如果我們分析一些連續性強的數據,如各國人口數據,動態排序的效果會好很多。

標簽:

相關閱讀

精彩推薦

相關詞

推薦閱讀

主站蜘蛛池模板: 手机在线精品视频 | 三级黄色免费网站 | 日日干狠狠操 | 久久综合久久综合久久 | 国产精品视频福利一区二区 | 久久这里只有精品免费播放 | 久久婷婷五月综合色丁香 | 日韩污视频 | 九九九热在线精品免费全部 | 欧美成人免费全部观看天天性色 | 搞黄网站在线观看 | 羞羞网址 | 日韩高清一区二区 | 国产91精品不卡在线 | 国产成人综合手机在线播放 | 亚洲色图综合在线 | 亚洲va久久久久综合 | 91精品一区二区三区在线 | 看全色黄大色黄女片18 | 亚洲精品在线播放视频 | 国产三级a三级三级三级 | 日韩伦理一区二区 | 男女在线视频观看 | 欧美午夜性春猛交 | 国产91精品一区二区麻豆网站 | 国产精品久久久天天影视香蕉 | 国产成人ay手机在线观看 | 成人性动漫在线观看视频 | 国产精品久久久久久久9999 | 好吊色视频在线观看 | 国产97免费视频 | 中文字幕在线看片成人 | 成人免费观看视频高清视频 | 六月丁香综合网 | 亚州三级视频 | 免费在线观看h片 | 羞羞视频在线观看视频 | 日韩中文字幕免费在线观看 | 五月天色婷婷在线 | 亚洲欧美一级久久精品 | 日韩欧美一区二区三区视频 |