С Новым годом! Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.85/13: Рейтинг темы: голосов - 13, средняя оценка - 4.85
0 / 0 / 0
Регистрация: 13.09.2015
Сообщений: 42

Pandas: прочитать определенные колонки файла csv

16.02.2022, 11:18. Показов 3048. Ответов 16

Студворк — интернет-сервис помощи студентам
При помощи Python pandas read_csv нужно прочитать файл csv прочитать нужно определенные колонки цена, год, дата. Прочитать нужно сразу в определенном формате цена = вещественный формат, год = целочисленный формат, дата = datatime-формат. Как это правильно сделать используя параметры usecols, parse_dates и dtype.
Python
1
df_new = pd.read_csv(path_new, sep=',', usecols= ['price', 'year', 'posting_date'], parse_dates=['posting_date','price','year'])
Как правильно пользоваться этими параметрами негде не могу найти. Подскажите пожалуйста?
0
Лучшие ответы (1)
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
16.02.2022, 11:18
Ответы с готовыми решениями:

Вам доступен csv файл data.csv, содержащий информацию в csv формате.Напишите функцию read_csv для чтения данных из файла
Вам доступен CSV-файл data.csv, содержащий информацию в csv формате. Напишите функцию read_csv для...

DeprecationWarning: Pyarrow will become a required dependency of pandas in the next major release of pandas
Возникла проблема при импортировании модуля Pandas. При запуске кода выдает следующее:...

Корректная обработка csv файла в pandas
Всем доброго времени суток…. Задача состоит в следующим : Используя библиотеку pandas...

16
Эксперт Python
8848 / 4500 / 1864
Регистрация: 27.03.2020
Сообщений: 7,315
16.02.2022, 12:25
https://pandas.pydata.org/docs... d_csv.html
https://russianblogs.com/article/3076810055/
Параметр dtype
0
0 / 0 / 0
Регистрация: 13.09.2015
Сообщений: 42
16.02.2022, 12:36  [ТС]
dtype : Type name or dict of column -> type, default None

Тип данных каждого столбца данных. Например: {‘a’: np.float64, ‘b’: np.int32}.

что такое np?
0
Эксперт Python
8848 / 4500 / 1864
Регистрация: 27.03.2020
Сообщений: 7,315
16.02.2022, 12:37
AlexsSStep, np -> numpy
...
Python
1
2
3
4
import pandas as pd
from datetime import datetime
 
df_new = pd.read_csv(path_new, sep=',', usecols= ['price', 'year', 'posting_date'], parse_dates=['posting_date','price','year'], dtype = [float, int, datetime])
0
0 / 0 / 0
Регистрация: 13.09.2015
Сообщений: 42
16.02.2022, 14:23  [ТС]
TypeError: Field elements must be 2- or 3-tuples, got '<class 'float'>'

Добавлено через 1 час 32 минуты
Python
1
df_new = pd.read_csv(path_new, sep=',', usecols= ['price', 'year', 'posting_date'], parse_dates=['price', 'year', 'posting_date'], dtype={['price': object], ['year' : int],['posting_date':datetime]})
Что не правильно здесь написано?
0
Эксперт Python
8848 / 4500 / 1864
Регистрация: 27.03.2020
Сообщений: 7,315
16.02.2022, 17:28
AlexsSStep, выложи хотя бы часть файла...
0
0 / 0 / 0
Регистрация: 13.09.2015
Сообщений: 42
17.02.2022, 08:03  [ТС]
Вот первые 47 строк в файле
0
0 / 0 / 0
Регистрация: 13.09.2015
Сообщений: 42
17.02.2022, 08:05  [ТС]
вот
Вложения
Тип файла: zip veh_car.zip (40.0 Кб, 3 просмотров)
0
Эксперт Python
8848 / 4500 / 1864
Регистрация: 27.03.2020
Сообщений: 7,315
17.02.2022, 12:11
AlexsSStep, как вариант:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
import pandas as pd
import numpy as np
 
def convert_int(x):
    return int(x.split('.')[0])
    # или
    # return int(float(x))
 
path_new = 'veh_car.csv'
 
df_new = pd.read_csv(path_new, sep=';',
                     usecols= ['price', 'year', 'posting_date'],
                     parse_dates=['posting_date'],
                     converters={'price' : float,
                            'year' : convert_int})
 
print(df_new)
0
0 / 0 / 0
Регистрация: 13.09.2015
Сообщений: 42
17.02.2022, 13:02  [ТС]
Цитата Сообщение от Gdez Посмотреть сообщение
def convert_int(x):
    return int(x.split('.')[0])
это отбрасывает ноль в дате я так понимаю но нету
Python
1
dtype=
а мне надо прочитать дату после чего вывести месяц
В самом начале вопрос был как считать из файла 3 столбца сразу в определенном формате цена = вещественный формат, год = целочисленный формат, дата = datatime-формат

df_new.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10050 entries, 0 to 10049
Data columns (total 3 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 price 10050 non-null float64
1 year 10014 non-null float64
2 posting_date 10048 non-null object
dtypes: float64(2), object(1)
memory usage: 235.7+ KB

Для первой записи в датафрейме извлеките из posting_date и выведите номер месяца
0
Эксперт Python
8848 / 4500 / 1864
Регистрация: 27.03.2020
Сообщений: 7,315
17.02.2022, 13:52
AlexsSStep,
это отбрасывает ноль в дате
Нет
Это переводит строку в целочисленный формат. Применяется к столбцу "year", где нет даты

Добавлено через 1 минуту
Python
1
parse_dates=['posting_date']
Переводит в формат даты при считывании из csv (datetime64)
0
0 / 0 / 0
Регистрация: 13.09.2015
Сообщений: 42
17.02.2022, 14:00  [ТС]
в моем случае не переводит как видно из ИНФО
2 posting_date 10048 non-null object
0
Эксперт Python
8848 / 4500 / 1864
Регистрация: 27.03.2020
Сообщений: 7,315
17.02.2022, 15:01
AlexsSStep, Значит в исходном файле (в отличие от представленного) есть пустые значения
Для первой записи в датафрейме извлеките из posting_date и выведите номер месяца
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
import pandas as pd
import numpy as np
 
def convert_int(x):
    if len(x) == 0:
        return 0
    return int(x.split('.')[0])
 
def convert_float(x):
    if len(x) == 0:
        return np.nan
    return float(x)
 
 
 
path_new = 'veh_car.csv'
 
df_new = pd.read_csv(path_new, sep=';',
                     usecols= ['price', 'year', 'posting_date'],
                     parse_dates=['posting_date'],
                     converters={'price' :convert_float,
                            'year' : convert_int})
 
df_new['month'] = df_new.posting_date.dt.month
print(df_new)
0
0 / 0 / 0
Регистрация: 13.09.2015
Сообщений: 42
18.02.2022, 05:46  [ТС]
Ты меня не слышишь parse_dates=['posting_date'], этого не достаточно чтобы перевести в формат datetime при этом у меня posting_date 10048 non-null object формат строка а не дата вот так звучит задание:

Датафрейм должен содержать:

колонки price, year, posting_date;
posting_date в datatime-формате;
price в вещественном формате;
year в целочисленном формате.
0
Эксперт Python
8848 / 4500 / 1864
Регистрация: 27.03.2020
Сообщений: 7,315
18.02.2022, 06:54
AlexsSStep,
Ты меня не слышишь
Это потому, что ты неправильно выложил исходные данные - с ними (даже, "обнулив" несколько значений) всё корректно работает на тобой представленных данных. А что там со всей таблицей, неизвестно - у меня её нет...

Не по теме:

Для перепроверки хотя бы загрузил 47-строчную версию; прогнал код, и посмотрел бы результаты и форматы данных колонок

0
0 / 0 / 0
Регистрация: 13.09.2015
Сообщений: 42
18.02.2022, 10:42  [ТС]
вот полный список
Вложения
Тип файла: zip vehicles_dataset.zip (9.34 Мб, 3 просмотров)
0
Эксперт Python
8848 / 4500 / 1864
Регистрация: 27.03.2020
Сообщений: 7,315
18.02.2022, 15:13
Лучший ответ Сообщение было отмечено AlexsSStep как решение

Решение

AlexsSStep,
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
import pandas as pd
import numpy as np
 
def convert_int(x):
    if len(x) == 0:
        return 0
    return int(x.split('.')[0])
 
def convert_float(x):
    if len(x) == 0:
        return np.nan
    return float(x)
 
 
 
path_new = 'vehicles_dataset.txt'
 
df_new = pd.read_csv(path_new, sep=',',
                     usecols= ['price', 'year', 'posting_date'],
                     converters={'price' :convert_float,
                            'year' : convert_int})
df_new.posting_date = pd.to_datetime(df_new.posting_date, utc=True, errors='coerce')
df_new['month'] = df_new.posting_date.dt.month.map(lambda x: int(x) if x==x else 0)
print(df_new)
 
 
# строки исходных данных, приводящих ранее к ошибке
# (пустые ячейки в столбце posting_date)
print(df_new[df_new.month!=df_new.month])
print()
# (пустые ячейки в столбце year)
print(df_new[df_new.year==0])
print()
# (пустые ячейки в столбце price)
print(df_new[df_new.price!=df_new.price])
Чтобы удалить строки с NaT в posting_date:
Python
1
df_new = df_new[df_new.posting_date==df_new.posting_date]
Либо узнать, что с ними (пустыми ячейками) делать
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
18.02.2022, 15:13
Помогаю со студенческими работами здесь

Pandas, получение данных из файла csv
Приветствую всех программистов! Помогите решить данную задачу. Она простая, как 2+2, но я только...

Не работает вывод csv файл через pandas
В папке data основной паки PyCharmProject лежит файл mnist_train.csv При попытке запустить код ...

Выбор данных из csv в pandas
Всем доброго дня/вечера/ночи. Задача состоит в следующем - 1. С помощью Pandas сгенерировать...

Определить типы данных CSV при загрузке в Pandas
Добрый день! Подскажите как правильно определить типы данных при загрузке из файла в формате CSV...

Pandas и работа с csv файлом
Есть файл films.csv На всякий приложу в его в архиве Задача: Посчитать какого жанра среди...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
17
Ответ Создать тему
Новые блоги и статьи
сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
Почему дизайн решает?
Neotwalker 09.01.2026
В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .
Модель микоризы: классовый агентный подход 3
anaschu 06.01.2026
aa0a7f55b50dd51c5ec569d2d10c54f6/ O1rJuneU_ls https:/ / vkvideo. ru/ video-115721503_456239114
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ФедосеевПавел 06.01.2026
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR ВВЕДЕНИЕ Введу сокращения: аналоговый ПИД — ПИД регулятор с управляющим выходом в виде числа в диапазоне от 0% до. . .
Модель микоризы: классовый агентный подход 2
anaschu 06.01.2026
репозиторий https:/ / github. com/ shumilovas/ fungi ветка по-частям. коммит Create переделка под биомассу. txt вход sc, но sm считается внутри мицелия. кстати, обьем тоже должен там считаться. . . .
Расчёт токов в цепи постоянного тока
igorrr37 05.01.2026
/ * Дана цепь постоянного тока с сопротивлениями и источниками (напряжения, ЭДС и тока). Найти токи и напряжения во всех элементах. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа и. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru