当前位置：自学咖网 > 技术教程 > 编程最新 > Python网络爬虫 – 爬取中证网银行相关信息

wen 编程最新 2024-01-31

Python网络爬虫 – 爬取中证网银行相关信息

最终版：07_中证网（Plus -Pro）.py

# coding=utf-8
import requests
from bs4 import BeautifulSoup
import io
import sys
import os

sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding="gb18030")  # 改变标准输出的默认编码

for qq in range(8):
    # query = input("【中证网】请输入你想搜索的内容：")
    query = "苏州银行"

    #年份
    year = [2014,2015,2016,2017,2018,2019,2020,2021]
    #总页数
    pages = [2,1,1,1,11,1,19,7]

    year = year[qq]
    pages = pages[qq]

    if not os.path.isdir(f"D:/桌面/爬虫-银行/中国证券网/{query}"):  # 如果没有此文件夹
        os.mkdir(f"D:/桌面/爬虫-银行/中国证券网/{query}")  # 创建此文件夹

    m = 0
    for p in range(1, pages + 1):
        url = f"http://search.cs.com.cn/search?page={p}&channelid=215308&searchword={query}&keyword={query}&token=12.1462412070719.47&perpage=10&outlinepage=5&&andsen=&total=&orsen=&exclude=&searchscope=&timescope=&timescopecolumn=&orderby=&timeline=={year}"

        dic = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36"}

        resp = requests.get(url, headers=dic, )
        resp.encoding = "utf-8"
        # print(resp)

        print(f"
>>>--------------------第{p}页---------------------<<<
")
        print(f"
>>>--------------------第{p}页---------------------<<<
")
        print(f"
>>>--------------------第{p}页---------------------<<<
")

        # print(resp.text)
        page = BeautifulSoup(resp.text, "html.parser")  # 指定html解析器

        alist = page.find_all("table")
        datalist = []
        for ii in alist:
            ss=ii.find("td", style="font-size: 12px;line-height: 24px;color: #333333;margin-top: 4px;")
            # print("ss=

",ss)
            if ss != None:
                ss = ss.get_text()
                datalist.append(ss)

        # print("data:",datalist,len(datalist))

        if not os.path.isdir(f"D:/桌面/爬虫-银行/中国证券网/{query}/{year}"):  # 如果没有此文件夹
            os.mkdir(f"D:/桌面/爬虫-银行/中国证券网/{query}/{year}")  # 创建此文件夹

        for ii in range(len(datalist)):
            fp = open(f"D:/桌面/爬虫-银行/中国证券网/{query}/{year}/({year}){ii + m + 1}.txt", "w+", encoding="utf-8")
            fp.write(datalist[ii] + "
")  # 只包含文本
            print(datalist[ii])
            print(f"
> > >{year}年，第{p}页，第{ii + 1}篇，成功! < < <")
            fp.close()
        m = m + len(datalist) + 1

print("----------------------------")
print(f"------
{year}年,爬取完毕----")
print("----------------------------")

历史优化记录：01_中证网.py

# coding=utf-8
import requests
from bs4 import BeautifulSoup
import io
import sys

sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding="gb18030")  # 改变标准输出的默认编码


query = input("【中证网】请输入你想搜索的内容：")
pages = int(input("要爬取的页数(不小于1)："))
if pages < 1:
    exit()

url = f"http://search.cs.com.cn/search?channelid=215308&perpage=&templet=&token=12.1462412070719.47&searchword={query}"

dic = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 "
                  "Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/30"}

resp = requests.get(url, headers=dic, )
resp.encoding = "utf-8"
# print(resp)

# print(resp.text)
page = BeautifulSoup(resp.text, "html.parser")  # 指定html解析器

alist = page.find("table").find_all("a")

# print(alist)

weblist = []
for a in alist:
    if a.get("href")[:5] == "https":
        weblist.append(a.get("href"))

# ----------------单页每个文章---------------------------------
m = 0

for ii in range(len(weblist)):

    url_a = weblist[ii]

    # print("0=",url_a)

    dic_a = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 "
                      "Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/30"}

    resp_a = requests.get(url_a, headers=dic_a, )
    resp_a.encoding = "gbk"

    # print("New:
",resp_a.text)

    page_a = BeautifulSoup(resp_a.text, "html.parser")  # 指定html解析器

    # print("123:
",page_a)

    page_b = page_a.find("section").find_all("p")

    # print(page_b)
    fp=open(f"D:/桌面/爬虫-银行/中国证券网/中国银行/{ii+1}.txt","w+",encoding="utf-8")

    txt_list = []
    for txt_a in page_b:
        # print(txt_a.text)
        txt_list.append(txt_a.text)

    # +++++++++++++++++++++++++++++++++++++++++++++++++++++++++
    # ++++++++++++++++++++++文本写入+++++++++++++++++++++++++++++++

    for i in range(len(txt_list)):
        fp.write(txt_list[i] + "
")  # 只包含文本

    fp.close()
    print(f">>{ii+1}成功!")
    m = ii+1

# +-+++-----------++++++++++-----多页------++++++++++++----------++++

if pages > 1:
    for p in range(pages):
        url_s = f"http://search.cs.com.cn/search?page={p+1}&channelid=215308&searchword={query}"

        resp = requests.get(url, headers=dic, )
        resp.encoding = "utf-8"
        # print(resp)

        # print(resp.text)
        page = BeautifulSoup(resp.text, "html.parser")  # 指定html解析器

        alist = page.find("table").find_all("a")

        # print(alist)

        weblist = []
        for a in alist:
            if a.get("href")[:5] == "https":
                weblist.append(a.get("href"))

        # ----------------单页每个文章---------------------------------

        for ii in range(len(weblist)):

            url_a = weblist[ii]

            # print("0=",url_a)

            dic_a = {
                "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 "
                              "Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/30"}

            resp_a = requests.get(url_a, headers=dic_a, )
            resp_a.encoding = "gbk"

            # print("New:
",resp_a.text)

            page_a = BeautifulSoup(resp_a.text, "html.parser")  # 指定html解析器

            # print("123:
",page_a)

            page_b = page_a.find("section").find_all("p")

            # print(page_b)
            fp = open(f"D:/桌面/爬虫-银行/中国证券网/中国银行/{ii + 1 + m}.txt", "w+", encoding="utf-8")

            txt_list = []
            for txt_a in page_b:
                # print(txt_a.text)
                txt_list.append(txt_a.text)

            # +++++++++++++++++++++++++++++++++++++++++++++++++++++++++
            # ++++++++++++++++++++++文本写入+++++++++++++++++++++++++++++++

            for i in range(len(txt_list)):
                fp.write(txt_list[i] + "
")  # 只包含文本

            print(f">>{ii + 1 + m}成功!")
            m = m + ii + 1


fp.close()

print("---------------
>>>爬取完毕<<<")

历史优化记录：02_中证网.py

# coding=utf-8
import requests
from bs4 import BeautifulSoup
import io
import sys

sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding="gb18030")  # 改变标准输出的默认编码


query = input("【中证网】请输入你想搜索的内容：")
pages = int(input("要爬取的页数(不小于1)："))
if pages < 1:
    exit()

url = f"http://search.cs.com.cn/search?page=1&channelid=215308&searchword={query}"

dic = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 "
                  "Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/30"}

resp = requests.get(url, headers=dic, )
resp.encoding = "utf-8"
# print(resp)

# print(resp.text)
page = BeautifulSoup(resp.text, "html.parser")  # 指定html解析器

alist = page.find("table").find_all("a")

# print(alist)

weblist = []
for a in alist:
    if a.get("href")[:5] == "https":
        weblist.append(a.get("href"))

# ----------------单页每个文章---------------------------------
m = 0

for ii in range(len(weblist)):

    url_a = weblist[ii]

    # print("0=",url_a)

    dic_a = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 "
                      "Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/30"}

    resp_a = requests.get(url_a, headers=dic_a, )
    resp_a.encoding = "gbk"

    # print("New:
",resp_a.text)

    page_a = BeautifulSoup(resp_a.text, "html.parser")  # 指定html解析器

    # print("123:
",page_a)

    page_b = page_a.find("section").find_all("p")

    # print(page_b)
    fp=open(f"D:/桌面/爬虫-银行/中国证券网/中国银行/0/(2021){ii+1}.txt","w+",encoding="utf-8")

    txt_list = []
    for txt_a in page_b:
        # print(txt_a.text)
        txt_list.append(txt_a.text)

    # +++++++++++++++++++++++++++++++++++++++++++++++++++++++++
    # ++++++++++++++++++++++文本写入+++++++++++++++++++++++++++++++

    for i in range(len(txt_list)):
        fp.write(txt_list[i] + "
")  # 只包含文本

    fp.close()
    print(f">>{ii+1}成功!")
    m = ii+1

# +-+++-----------++++++++++-----多页------++++++++++++----------++++
# +-+++-----------++++++++++-----多页------++++++++++++----------++++

if pages > 1:
    for p in range(pages):
        url_s = f"http://search.cs.com.cn/search?page={p+1}&channelid=215308&searchword={query}"

        resp = requests.get(url, headers=dic, )
        resp.encoding = "utf-8"
        # print(resp)

        # print(resp.text)
        page = BeautifulSoup(resp.text, "html.parser")  # 指定html解析器

        alist = page.find("table").find_all("a")

        # print(alist)

        weblist = []
        for a in alist:
            if a.get("href")[:5] == "https":
                weblist.append(a.get("href"))

        # ----------------单页每个文章---------------------------------

        for ii in range(len(weblist)):

            url_a = weblist[ii]

            # print("0=",url_a)

            dic_a = {
                "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 "
                              "Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/30"}

            resp_a = requests.get(url_a, headers=dic_a, )
            resp_a.encoding = "gbk"

            # print("New:
",resp_a.text)

            page_a = BeautifulSoup(resp_a.text, "html.parser")  # 指定html解析器

            # print("123:
",page_a)

            page_b = page_a.find("section").find_all("p")

            # print(page_b)
            fp = open(f"D:/桌面/爬虫-银行/中国证券网/中国银行/0/(2021){ii + 1 + m}.txt", "w+", encoding="utf-8")

            txt_list = []
            for txt_a in page_b:
                # print(txt_a.text)
                txt_list.append(txt_a.text)

            # +++++++++++++++++++++++++++++++++++++++++++++++++++++++++
            # ++++++++++++++++++++++文本写入+++++++++++++++++++++++++++++++

            for i in range(len(txt_list)):
                fp.write(txt_list[i] + "
")  # 只包含文本

            print(f">>{ii + 1 + m}成功!")
        m = m + ii + 1


fp.close()

print("---------------
>>>爬取完毕<<<")

历史优化记录：03_中证网.py

# coding=utf-8
import requests
from bs4 import BeautifulSoup
import io
import sys

sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding="gb18030")  # 改变标准输出的默认编码

query = input("【中证网】请输入你想搜索的内容：")
pages = int(input("要爬取的页数(不小于1)："))
if pages < 1:
    exit()

m = 0
for p in range(1,pages+1):
    url = f"http://search.cs.com.cn/search?page={p}&channelid=215308&searchword={query}&perpage=10&outlinepage=5&&andsen=&total=&orsen=&exclude=&searchscope=&timescope=&timescopecolumn=&orderby=&timeline==2021"

    dic = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36"}

    resp = requests.get(url, headers=dic, )
    resp.encoding = "utf-8"
    # print(resp)

    print(f"
>>>--------------------第{p}页---------------------<<<
")
    print(f"
>>>--------------------第{p}页---------------------<<<
")
    print(f"
>>>--------------------第{p}页---------------------<<<
")

    # print(resp.text)
    page = BeautifulSoup(resp.text, "html.parser")  # 指定html解析器

    alist = page.find("table").find_all("a")

    weblist = []

    for a in alist:
        if a.get("href")[:5] == "https":
            weblist.append(a.get("href"))
    # print("weblist==",weblist)
# ----------------单页每个文章---------------------------------

    for ii in range(len(weblist)):

        url_a = weblist[ii]

        # print("0=",url_a)

        dic_a = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36"}

        resp_a = requests.get(url_a, headers=dic_a, )
        resp_a.encoding = "gbk"

        # print("New:
",resp_a.text)

        page_a = BeautifulSoup(resp_a.text, "html.parser")  # 指定html解析器

        # print("123:
",page_a)

        page_b = page_a.find("section").find_all("p")

        # print(page_b)
        fp=open(f"D:/桌面/爬虫-银行/中国证券网/中国银行/2021/(2021){ii+m+1}.txt","w+",encoding="utf-8")

        txt_list = []
        for txt_a in page_b:
            # print("txt_a===",txt_a.text)
            txt_list.append(txt_a.text)
        print(f"
-++++++++++++++++++第{ii+1}篇文章++++++++++++++++-
",txt_list,len(txt_list))
        # +++++++++++++++++++++++++++++++++++++++++++++++++++++++++
        # ++++++++++++++++++++++文本写入+++++++++++++++++++++++++++++++

        for i in range(len(txt_list)):
            fp.write(txt_list[i] + "
")  # 只包含文本

        # print("-----------------------------------")
        print(f"
> > >{ii+1}成功! < < <")
        fp.close()
    m=m+len(weblist)+1


print("---------------
>>>爬取完毕<<<")

历史优化记录：04_中证网(网址筛选问题).py

# coding=utf-8
import requests
from bs4 import BeautifulSoup
import io
import sys

sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding="gb18030")  # 改变标准输出的默认编码

query = input("【中证网】请输入你想搜索的内容：")
pages = int(input("要爬取的页数(不小于1)："))
if pages < 1:
    exit()

m = 0
for p in range(1,pages+1):
    url = f"http://search.cs.com.cn/search?page={pages}&channelid=215308&searchword={query}&keyword={query}&token=12.1462412070719.47&perpage=10&outlinepage=5&&andsen=&total=&orsen=&exclude=&searchscope=&timescope=&timescopecolumn=&orderby=&timeline==2020"

    dic = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36"}

    resp = requests.get(url, headers=dic, )
    resp.encoding = "utf-8"
    # print(resp)

    print(f"
>>>--------------------第{p}页---------------------<<<
")
    print(f"
>>>--------------------第{p}页---------------------<<<
")
    print(f"
>>>--------------------第{p}页---------------------<<<
")

    # print(resp.text)
    page = BeautifulSoup(resp.text, "html.parser")  # 指定html解析器

    alist = page.find("table").find_all("a")

    print("alist:",alist)

    weblist = []

    for a in alist:
        if a.get("href")[4:] == "http":
            weblist.append(a.get("href"))

    print("weblist==",weblist)

# ----------------单页每个文章---------------------------------

    for ii in range(len(weblist)):

        url_a = weblist[ii]

        # print("0=",url_a)

        dic_a = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36"}

        resp_a = requests.get(url_a, headers=dic_a, )
        resp_a.encoding = "gbk"

        # print("New:
",resp_a.text)

        page_a = BeautifulSoup(resp_a.text, "html.parser")  # 指定html解析器

        # print("123:
",page_a)

        page_b = page_a.find("section").find_all("p")

        # print(page_b)
        fp=open(f"D:/桌面/爬虫-银行/中国证券网/中国银行/2020/(2020){ii+m+1}.txt","w+",encoding="utf-8")

        txt_list = []
        for txt_a in page_b:
            # print("txt_a===",txt_a.text)
            txt_list.append(txt_a.text)
        print(f"
-++++++++++++++++++第{ii+1}篇文章++++++++++++++++-
",txt_list,len(txt_list))
        # +++++++++++++++++++++++++++++++++++++++++++++++++++++++++
        # ++++++++++++++++++++++文本写入+++++++++++++++++++++++++++++++

        for i in range(len(txt_list)):
            fp.write(txt_list[i] + "
")  # 只包含文本

        # print("-----------------------------------")
        print(f"
> > >{ii+1}成功! < < <")
        fp.close()
    m=m+len(weblist)+1


print("---------------
>>>爬取完毕<<<")

历史优化记录：05_中证网.py

# coding=utf-8
import requests
from bs4 import BeautifulSoup
import io
import sys

sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding="gb18030")  # 改变标准输出的默认编码

query = input("【中证网】请输入你想搜索的内容：")
year = int(input("要爬取的年份："))
pages = int(input("要爬取的页数(不小于1)："))

if pages < 1:
    exit()

m = 0
for p in range(1, pages + 1):
    url = f"http://search.cs.com.cn/search?page={p}&channelid=215308&searchword={query}&keyword={query}&token=12.1462412070719.47&perpage=10&outlinepage=5&&andsen=&total=&orsen=&exclude=&searchscope=&timescope=&timescopecolumn=&orderby=&timeline=={year}"

    dic = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36"}

    resp = requests.get(url, headers=dic, )
    resp.encoding = "utf-8"
    # print(resp)

    print(f"
>>>--------------------第{p}页---------------------<<<
")
    print(f"
>>>--------------------第{p}页---------------------<<<
")
    print(f"
>>>--------------------第{p}页---------------------<<<
")

    # print(resp.text)
    page = BeautifulSoup(resp.text, "html.parser")  # 指定html解析器

    alist = page.find("table").find("tr").find_all("a")

    # print("alist:", alist)

    weblist = []

    for a in alist:
        if a.get("href")[:4] == "http":
            weblist.append(a.get("href"))

    print("weblist==", weblist)

    # ----------------单页每个文章---------------------------------

    for ii in range(len(weblist)):

        url_a = weblist[ii]

        # print("0=",url_a)

        dic_a = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36"}

        resp_a = requests.get(url_a, headers=dic_a, )
        resp_a.encoding = "gbk"

        # print("New:
",resp_a.text)

        page_a = BeautifulSoup(resp_a.text, "html.parser")  # 指定html解析器

        # print("123:
",page_a)

        page_b = page_a.find_all("p")

        # print(page_b)
        fp = open(f"D:/桌面/爬虫-银行/中国证券网/中国银行/{year}/({year}){ii + m + 1}.txt", "w+", encoding="utf-8")

        txt_list = []
        for txt_a in page_b:
            # print("txt_a===",txt_a.text)
            txt_list.append(txt_a.text)
        print(f"
-++++++++++++++++++第{ii + 1}篇文章++++++++++++++++-
", txt_list, len(txt_list))
        # +++++++++++++++++++++++++++++++++++++++++++++++++++++++++
        # ++++++++++++++++++++++文本写入+++++++++++++++++++++++++++++++

        for i in range(len(txt_list)):
            fp.write(txt_list[i] + "
")  # 只包含文本

        # print("-----------------------------------")
        print(f"
> > >{ii + 1}成功! < < <")
        fp.close()
    m = m + len(weblist) + 1

print("---------------
>>>爬取完毕<<<")

历史优化记录：06_中证网（Plus）.py

# coding=utf-8
import requests
from bs4 import BeautifulSoup
import io
import sys
import os

sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding="gb18030")  # 改变标准输出的默认编码

# query = input("【中证网】请输入你想搜索的内容：")
query = "交通银行"
year = int(input("要爬取的年份："))
pages = int(input("要爬取的页数(不小于1)："))

if pages < 1:
    exit()

m = 0
for p in range(1, pages + 1):
    url = f"http://search.cs.com.cn/search?page={p}&channelid=215308&searchword={query}&keyword={query}&token=12.1462412070719.47&perpage=10&outlinepage=5&&andsen=&total=&orsen=&exclude=&searchscope=&timescope=&timescopecolumn=&orderby=&timeline=={year}"

    dic = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36"}

    resp = requests.get(url, headers=dic, )
    resp.encoding = "utf-8"
    # print(resp)

    print(f"
>>>--------------------第{p}页---------------------<<<
")
    print(f"
>>>--------------------第{p}页---------------------<<<
")
    print(f"
>>>--------------------第{p}页---------------------<<<
")

    # print(resp.text)
    page = BeautifulSoup(resp.text, "html.parser")  # 指定html解析器

    alist = page.find_all("table")
    datalist = []
    for ii in alist:
        ss=ii.find("td", style="font-size: 12px;line-height: 24px;color: #333333;margin-top: 4px;")
        # print("ss=

",ss)
        if ss != None:
            ss = ss.get_text()
            datalist.append(ss)

    # print("data:",datalist,len(datalist))

    if not os.path.isdir(f"D:/桌面/爬虫-银行/中国证券网/{query}/{year}"):  # 如果没有此文件夹
        os.mkdir(f"D:/桌面/爬虫-银行/中国证券网/{query}/{year}")  # 创建此文件夹

    for ii in range(len(datalist)):
        fp = open(f"D:/桌面/爬虫-银行/中国证券网/{query}/{year}/({year}){ii + m + 1}.txt", "w+", encoding="utf-8")
        fp.write(datalist[ii] + "
")  # 只包含文本
        print(datalist[ii])
        print(f"
> > >第{p}页，第{ii + 1}篇，成功! < < <")
        fp.close()
    m = m + len(datalist) + 1

print("----------------------------")
print(f"------
{year}年,爬取完毕----")
print("----------------------------")

hmoban主题是根据ripro二开的主题，极致后台体验，无插件，集成会员系统
自学咖网 » Python网络爬虫 – 爬取中证网银行相关信息

wen 普通

分享到：

相关推荐

Django个人博客系统（1-5）

1.创建项目与注册APP 本文采用的是最简单的创建Django项目的方法，即在Pycharm中创建项目时在左侧选择Django即可，我们只需修改项目的名称、确定是否采用虚拟环境（推荐使用虚拟环境），然后点击Create即...

编程最新 2024-01-31
36

Spark平台下基于LDA的k-means算法实现

　　本文主要在Spark平台下实现一个机器学习应用，该应用主要涉及LDA主题模型以及K-means聚类。通过本文你可以了解到：　　文本挖掘的基本流程　　LDA主题模型算法　　K-means算法　　Spark平台下...

编程最新 2024-01-31
48

Android使用Retrofit实现自定义Converter解析接口流程详解

　　不知道你们在使用Retrofit访问后台接口时返回的数据是否是一样的格式，比如登录接口，在我们输入密码成功或错误的时候后台返回的数据格式是不同的，这样我们在添加GsonConverterFactory解析后台数据时由...

编程最新 2024-01-26
37

ShenYu 网关开发：在本地启用运行

1.先决条件无论什么方式安装，都需要先初始化数据库，这里我选择了在本地通过 Docker 启用一个 mysql 5.7 docker run -d --name mysql -p 3306:3306 -e MYSQL_...

编程最新 2024-01-31
39

### python基础小汇总

python基础小汇总 python是什么? python是一种解释性语言,依赖于解释器,逐行解释成二进制,逐行运行优点:可以跨平台,开发效率高缺点:是执行效率低编译型语言,一次性全部编译成二进制,再执行优点:执...

编程最新 2024-01-31
40

SSM中操作Redis—Jedis

SSM中操作Redis——Jedis 1、Jedis jedis是基于java的redis客户端，集成了redis的命令操作，提供了连接池管理 jedis的方法就是redis的命令 2、导入依赖 <!--jedis...

编程最新 2024-01-31
42

自学咖网