R語言通過url獲取數據(r語言如何讀取包中的數據)
本篇文章給大家談談R語言通過url獲取數據,以及r語言如何讀取包中的數據對應的知識點,希望對各位有所幫助,不要忘了收藏本站喔。
本文目錄一覽:
- 1、如何用R語言爬取網頁表格數據節(jié)省一天工作時間
- 2、R語言如何從外部讀取數據到R中
- 3、如何通過一個URL鏈接獲取數據
- 4、如何用r語言抓取數據庫中的數據庫
- 5、url地址如何獲取
- 6、R語言數據對象與運算
如何用R語言爬取網頁表格數據節(jié)省一天工作時間
方法/步驟fromurllib.requestimporturlopen用于打開網頁fromurllib.errorimportHTTPError用于處理鏈接異常frombs4importBeautifulSoup用于處理html文檔importre用正則表達式匹配目標字符串例子用關于抓取百度新聞網頁的某些圖片鏈接fromurllib.requestimporturlopenfromurllib.errorimportHTTPErrorfrombs4importBeautifulSoupimportreurl="/"try:html=urlopen(url)exceptHTTPErrorase:print(e)try:bsObj=BeautifulSoup(html.read())images=bsObj.findAll("img",{"src":re.compile(".*")})forimageinimages:print(image["src"])exceptAttributeErrorase:print(e)importjava.io.BufferedReader;importjava.io.IOException;importjava.io.InputStreamReader;importjava.net.HttpURLConnection;importjava.net.MalformedURLException;importjava.net.URL;publicclassCapture{publicstaticvoidmain(String[]args)throwsMalformedURLException,IOException{StringstrUrl="/";URLurl=newURL(strUrl);HttpURLConnectionhttpConnection=(HttpURLConnection)url.openConnection();InputStreamReaderinput=newInputStreamReader(httpConnection.getInputStream(),"utf-8");BufferedReaderbufferedReader=newBufferedReader(input);Stringline="";StringBuilderstringBuilder=newStringBuilder();while((line=bufferedReader.readLine())!=null){stringBuilder.append(line);}Stringstring=stringBuilder.toString();intbegin=string.indexOf("");intend=string.indexOf("");System.out.println("IPaddress:"+string.substring(begin,end));}
R語言如何從外部讀取數據到R中
R語言如何從外部讀取數據到R中
R語言可以從鍵盤,文本,excel,access,數據庫,專業(yè)處理軟件sas
一、使用鍵盤的輸入
mydata-data.frame(age=numeric(0),gender=character(0),weight=numeric(0))
mydata-edit(mydata)
二、讀入帶有分隔符文本格式的數據
data-read.table(文件,header=true/false,sep="delimeter",row.names=列名)
其中文件可以有很多選項的
file()gzfile(),bzfile(),等一些壓縮文件以及url(http://,)
例子:
默認的時候,字符串會自動使用factor轉化為數值型
data-read.table("student.csv",header=TRUE,sep=",",row.names="studentid",stringsAsFactors=FALSE)
三、將xls文件導入到R中
(1)將xls變成csv的格式導入
(2)在Windows系統(tǒng)中,你也可以使用RODBC包來訪問Excel文件。
library(RODBC)
channel - odbcConnectExcel("student.xls")
mydataframe-sqlFetch(channel,"Sheet1")
odbcClose(channel)
四、抓取網頁并且提取信息
五、導入spss數據
library(Hmisc)
mydata-spss.get("mydata.sav",use.value.labels=TRUE)
六、導入SAS數據
將sas格式的數據轉換為csv格式的數據 然后用read.table()形式導入
七、導入關系型數據庫的數據
R中有多種面向關系型數據庫管理系統(tǒng)(DBMS)的接口,包括Microsoft SQL Server、Microsoft Access、MySQL、Oracle、PostgreSQL、DB2、Sybase、Teradata以及SQLite。其中一些包通過原生的數據庫驅動來提供訪問功能,另一些則是通過ODBC或JDBC來實現訪問的。
(1)使用ODBC的方式導入數據
如何通過一個URL鏈接獲取數據
1.“servlet名”實要提交到的servlet名,要小寫。 2.“xxx”可以跟常量也可以跟變量 如 3.用此方法提交默認是get方式 (我還不知道怎么將它變成post方式)。 4.在servlet中接收傳過來的參數: String name1 = new String(request.getParameter("...
如何用r語言抓取數據庫中的數據庫
一、 安裝RODBC庫
1、進入R語言的GUI界面(RGUI.EXE),在菜單欄選擇“程序包/安裝程序包
2、在彈出的窗口里往下拉,選擇RODBC如圖,點擊確定
3、在ODBC數據源管理器里將需要的數據庫添加進去,這里筆者使用的是SQL Server2008,驅動程序選擇Native Client10.0
3、在R語言窗口輸入連接語句
library(RODBC)
**這里是載入RODBC庫
channel-odbcConnect("MyTest",uid="ripley",case="tolower")
**連接剛才添加進數據源的“MyTest”數據庫
**ch - odbcConnect("some dsn ", uid = "user ", pwd = "**** ")
**表示用戶名為user,密碼是****,如果沒有設置,可以直接忽略
data(USArrests)
**將“USArrests”表寫進數據庫里(這個表是R自帶的)
sqlSave(channel,USArrests,rownames = "state",addPK = TRUE)
**將數據流保存,這時候打開SQL Server就可以看到新建的USArrests表了
rm(USArrests)
sqlTables(channel)
**給出數據庫中的表
sqlFetch(channel,"USArrests",rownames = "state")
**輸出USArrests表中的內容
sqlQuery(channel,"select * from USArrests")
**調用SELECT查詢語句并返回結果(如圖)
sqlDrop(channel,"USArrests")
**刪除表
odbcClose(channel)
**最后要記得關閉連接
當然,通過這個辦法也可以讀取Excel、Access表中的內容,具體方法類似,這里不再重復
url地址如何獲取
獲取url地址的步驟如下:
工具:聯想XiaoXin Chao7000-15IKBR、Windows10、運行10.0.17763。
1、進入運行界面,windows+R進入運行界面,輸入cmd后點擊確定。
2、輸入nslookup,在命令窗口輸入nslookup,然后空格,回車。
3、復制網址進行查看,將要查看的網址粘貼到命令行,回車,在非權威應答下就是要查看網站的ip。
url的作用
url的作用是:識別internet中的信息資源,并將internet提供的服務統(tǒng)一編址。通過URL我們可以到達任何一個地方尋找需要的東西,如文件、數據庫、圖像、新聞等。
URL(外文名:UniformResourceLocator,中文名:統(tǒng)一資源定位符),統(tǒng)一資源定位符是對可以從互聯網上得到的資源的位置和訪問方法的一種簡潔的表示,是互聯網上標準資源的地址?;ヂ摼W上的每個文件都有一個唯一的URL,它包含的信息指出文件的位置以及瀏覽器應該怎么處理它。
R語言數據對象與運算
R語言數據對象與運算
R語言數據對象與運算 筆記整理
2.1 數據對象及類型
R語言創(chuàng)建和控制的實體被稱為對象(object)
ls()命令來查看當前系統(tǒng)里的數據對象
R對象的名稱必須以一個英文字母打頭,并由一串大小寫字母、數字或鐘點組成
注意:R區(qū)分大小寫
不要用R的內置函數名稱作為數據對象的名稱,如c、length等
2.2 數據對象類型
R語言的對象包括
數值型(numeric):實數, 可寫成整數(integers)、小數(decimal fractions)、科學記數(scientific notation)
邏輯型(logical):T(true)或F(FALSE)
字符型(character):夾在" "或之間
復數型(complex):形如a+bi
原味型(raw):以二進制形式保存數據
缺省型(missing value):有些統(tǒng)計資料是不完整的,當一個元素或值在統(tǒng)計的時候是“不可得到(not available)”或“缺失值(missing value)”的時候,相關位置可能會被保留并賦予一個特定的NA(not available)值,任何NA的運算結果都是NA。
辨別和轉換數據對象類型的函數:
辨別 轉換
character is.character() as,character()
complex
double
integer
logical
NA
numeric
2.3 數據對象構造
R語言里的數據對象主要有六種構造:向量(vector)、矩陣(matrix)、數組(array)、列表(list)、數據框(data frames)、因子(factor)
2.3.1 向量(vector)是由有相同基本類型元素組成的序列,相當于一維數組
5個數值組成的向量x,這是一個用函數c()完成的賦值語句,這里c()可以有任意多個參數,而它輸出的值則是一個把這些參數首尾相連形成的一個向量
R的賦值符號除了“-”外,還有"-""="
例如:
c(1,3,5,7,9) - y
y
[1] 2 5 8 3
z = c(1,3,5,7,9)
z
[1] 1 3 5 7 9
assign()函數對向量進行賦值
length():可返回向量的長度
mode()可返回向量的數據類型
正則序列 用 “:”符號,可產生有規(guī)律的正則序列(: 的運算級別最高)
函數seq()產生有規(guī)律的各種序列
seq(from,to ,by) from 給序列的起始值,to表示序列的終止值,by表示步長(by 省略時,表示步長值為1)
seq(1,10,2)
[1] 1 3 5 7 9
seq(1,10)
[1] 1 2 3 4 5 6 7 8 9 10
有時關注的是數列的長度,利用句法:seq(下界,by=,length=)
seq(1,by=2,length=10)
[1] 1 3 5 7 9 11 13 15 17 19
rep(x,times,……)x表示要重復的對象,times表示重復的次數
rep(c(1,3),4)
[1] 1 3 1 3 1 3 1 3
rep(c(1,3),each=4)
[1] 1 1 1 1 3 3 3 3
對每個元素進行重復;
R中的內置函數:
mean()來示向量的均值
median()求是位數
var()求方差
sd()求標準差
sort()對向量排序
rev()將向量按原方向的反方向排列
rank()給求出向量的秩
prod()求向量連乘積
append()為向量添加元素
對向量運算常見函數表
函數 用途
sum() 求和
max() 求最大值
min() 求最小值
range() 求極差(全矩)
mean() 求均值
median 求中位數
var() 求方差
sd() 求標準差
sort() 排序
rev() 反排序
rank() 求秩
append() 添加
replace() 替換
match() 匹配
pmatch() 部分匹配
all() 判斷所有
any() 判斷部分
prod() 積
2.3.2 矩陣
矩陣(matrix)是將數據用行和列排列的長方形表格,它是二維的數組,其單元必須是相同的數據類型,通常用列來表示不同的變量,用行表示各個對象。
其句法是:
matrix(data=NA,ncol=1,byrow-=FALSE,dimnames=NULL)
data是必須的,其它幾個選擇參數。
nrow表示矩陣的行數
ncol表示矩陣的列數
byrow默認為FALSE,表示矩陣按列排列,如設置為T,表示按行排列;
dimnames可更改矩陣行列名字
diag()函數生成對角矩陣
diag()這個函數比較特別,當數據是向量時則生成對角矩陣,但當數據是矩陣時,則返回對角元素
也可用函數diag()生成單位矩陣
當我們生成了某個矩陣后,若要訪問矩陣的某個元素或某行(列),可以利用形如A[i,j]的形式得到相應的索引矩陣
矩陣可進行相應的加減乘除運算,但運算過程中要注意行數和列數的限制條件
R里A*B并不是表示矩陣相乘,只表示矩陣對應的元素相乘
矩陣相乘應用A%*%B
dim()返回矩陣的行數和列數
nrow()返回矩陣的行數
ncol()返回矩陣的列數
solve()返回矩陣的逆矩陣
對矩陣運算的常見函數
函數 用途
as.matrix() 把非矩陣的轉換成矩陣
is.matrix() 辨別是否矩陣
diag() 返回對角元素或生成對角矩陣
eigen() 求特征值和特征向量
solve() 求逆矩陣
chol() Choleski分解
svd() 奇異值分解
qr() QR分解
det() 求行列式
dim() 返回行列數
t() 矩陣轉置
apply() 對矩陣應用函數
R語言還提供了專門針對矩陣的行或列計算的函數
如 colSUms()對矩陣各列求和 colMeans()求矩陣各列的均值
類似的有 rowSums()rowMeans()
更一般的方法:
apply()函數來對各行各列進行運算
句法是:apply(X,MARGIN,FUN,……)
X表示要處理的數據
MARGIN表示函數作用的范圍
取1表示對行運用函數
取2表示對列運用函數
FUN表示要運用的函數
rbind()、cbind()將兩個或兩個以上的矩陣合并起來
rbind()表示按行合并,cbind()則表示按列合并
2.3.3 數組
數組(array)可以看作是帶有多個下標的類型相同的元素的集合。
數組的生成函數是array(),其句法是
array(data=NA,dim=length(data),dimnames-NULL)
data表示數據,可以為空
dim 表示維數
dimnames可以更改數組難度的名稱
2.3.4 列表
向量、矩陣和的單元必須是同一類型的數據,若一個數據對象需要含有不同的數據類型,可采用列表(list)這種數據對象的形式。
列表是一個對象的有序集合構成的對象,列表中包含的對象又稱為它的分量(components),分量可以是不同的模式或(和)類型
語法式為:list (變量1=分量1,變量2=分量2,……)
若要訪問列表的某一成分,可以用LST[[1]],LST[[2]]的形式訪問
因分量可以被命名,故可以在列表名稱后加$符號,再寫上成分名稱來訪問列表分量
函數length()、mode()、names()可以分別返回列表的長度(分量的數目)、數據類型、列表里成分的名字
2.3.5 數據框
數據框(data frame)是一種矩陣形式的數據,但數據框中各列可以是不同類型的數據。數據框每列是一個變量,每行是一個觀測 。
對可能列入數據框中的列表有如下的一些限制:
1.分量必須是向量(數值,字符,邏輯),因子,數值矩陣,列表或者其他數據框。
2.矩陣,列表和數據框為新的數據框提供了盡可能多的變量,因為它們各自擁有列、元素或者變量。
3.數值向量、邏輯值、因子保持原有格式,而字符向量會被強制轉換成因子并且它的水平就是向量中出現的獨立值。
4.在數據框中以變量形式出現的向量結構必須長度一致,矩陣結構必須有一樣的行數。
R中用函數data.frame()生成數據框,其句法是:data.frame(data1,data2,……)
數據框的列名默認為變量名,也可對列名進行重新命名
也可以對數據框的行名進行修改
2.3.6 因子和有序因子
分類型數據經常要把數據分成不同的水平或因子(factor)
生成因子的命令是factor(),其句法是:factor(data,levels,labels,……)
其中data表示數據
levels是因子水平向量
labels是因子的標簽向量
levels,labels是備選項,可以不選
若上面的每個因子并不表示因子的大小,要表達因子之間有大小順序(考慮因子之間的順序),則可以用 ordered()函數產生
2.4 數據的錄入及編輯
c函數:c函數是把各個值聯成一個向量或列表,可以形成數值型向量、字符型向量或其它類型向量
scan函數:功能類似于c函數,實際上是一種鍵盤輸入數據函數。當輸入scan(),然后按回車鍵,這時將等待輸入數據,數據之間只要空格分開即可(c函數要用逗號分開)。輸入完數據,再按回車鍵,這時數據錄入完畢。
scan函數還可以讀入外部文本文件,若現有一個文本文件,data.txt,讀入這個文件的命令是: x=scan(file="dat.txt")
若原文件的數據之間有逗號等分隔符,用scan讀入應該去掉這些分隔符,其命令是: x=scan(file="dat.txt",sep=",")
編輯數據
data.entry命令
xx原先未被定義,現在賦予其一個空值,這時會出現一個電子表格界面,等待輸入數據: data.entry(xx=c(NA))
當電子表格關閉后,數據會自動保存
edit命令用來編輯函數,也可用來編輯數據,但不會自動保存
fix函數與edit類似,但它可以自動保存
從外部文件讀入數據
從文本文件讀?。?/p>
s1=read.table("student.txt")
s1
V1 V2 V3
1 class sex score
2 1 女 80
3 1 男 85
4 2 男 92
5 2 女 76
6 3 女 61
7 3 女 95
8 3 男 83
讀入表格數據的命令是:read.table
忽略掉標簽而直接使用默認的行標簽
s2=read.table("student.txt",header=T)
s2
class sex score
1 1 女 80
2 1 男 85
3 2 男 92
4 2 女 76
5 3 女 61
6 3 女 95
7 3 男 83
從網絡讀入數據
url可以從網頁上讀入正確格式的數據,要借助read.table函數
address=
/sample.txt
read.table(file=url(address))
讀入其他格式的數據庫
要讀入其他格式的數據庫,必須先安裝"foreign"模塊,它不屬于R的8個內置模塊,需在使用前安裝。 library(foreign)
SAS:R只能詩篇SAS Transport format(XPORT)文件,需要把普通的SAS數據文件(.ssd和.sas7bdat)轉換成Transport format(XPORT)文件,再用命令:read.xport()
SPSS數據庫:read.spss()可讀入SPSS數據文件
Epi info數據庫:
要給數據集一個名字,則是;read.epiinfo("文件名.rec")-名稱
Stata數據庫:
R可讀入Stata5,6,7的數據庫
讀入數據文件后,使用數據集名$變量名,即可使用各個變量
read.dta(“文件名.dta”)
讀入數據文件后,使用數據集名$變量名,即可使用各個變量。
mean(data$age)
便是計算數據集 data中的變量age的均數。
2.5 函數、循環(huán)與條件表達式
2.5.1 編寫函數
句法是:
函數名 = function (參數1,參數2…)
{
函數體
函數返回值
}
對于這類只有一個算術式的簡單函數,也要不要{}
mean(data$age)
便是計算數據集 data中的變量age的均數。
若不使用圓括號,直接輸入函數名,按回車鍵將顯示函數的定義式:
單參數:使函數個性化,可使用單參數,函數將會根據參數的不同,返回值不同
welcome.sb = function(names) print(paste("welcome",names,"to
use R"))
welcome.sb("Mr fang")
[1] "welcome Mr fang to use R"
welcome.sb("Mr Wang")
[1] "welcome Mr Wang to use R"
默認參數:即不輸入任何參數
函數的默認參數
welcome.sb=function(names="Mr fang")print(paste("welcome",
names,"to use R"))
welcome.sb()
[1] "welcome Mr fang to use R"
當函數體的表達式超過一個時,要用{}封起來
2.5.2 for循環(huán)
for循環(huán)的句法是:
for (變量 in取值向量) {
表達式…
}
R語言通過url獲取數據的介紹就聊到這里吧,感謝你花時間閱讀本站內容,更多關于r語言如何讀取包中的數據、R語言通過url獲取數據的信息別忘了在本站進行查找喔。
掃描二維碼推送至手機訪問。
版權聲明:本文由飛速云SEO網絡優(yōu)化推廣發(fā)布,如需轉載請注明出處。